The distributed ensemble learning is a fundamental method of the big data processing at present. In this project we plan to deal with the small data sets that big data divided into using the method of Markov resampling such that the Markov chains reach quickly the limiting distribution or the stationary distribution after many times Markov resampling. Then we can use the information of the distribution to purify the small data sets, optimize the load balancing and the computational efficiency of the distributed ensemble learning. The aim of this project is to establish the theoretical framework and design novel algorithms for the distributed ensemble learning based on Markov resampling, and then use them to deal with the practical problem of the big data processing and present some new idea and novel method for mining big data by studying the sufficient conditions that the basic learning machines based on Markov resampling have good generalization ability and the basic learning machines based on Markov resampling have large otherness, and establilshing the basic principle for the ensemble fashion and the combined criterion of the basic learning machines based on Markov resampling.
分布式集成学习是目前大数据处理的一个基本方法。本项目拟通过对大数据分割后的小数据集进行马氏重抽样,使得多次马氏重抽样后的马氏样本序列较快达到数据的极限分布或平稳分布,从而应用数据分布的信息对小数据集进行价值提纯,优化分布式学习的负载均衡和计算效率。通过对基于马氏重抽样的基本学习机有较好泛化性能和较大差异性所满足的条件,以及基于马氏重抽样的基本学习机的集成方式和合并准则等问题的研究,建立大数据环境下基于马氏重抽样的分布式集成学习的理论框架,设计出适合大数据特性的基于马氏重抽样的分布式集成学习的新算法,并将理论和算法研究成果应用到大数据处理的实际问题中,为大数据挖掘提供新思路和新方法。
在本项目中,我们对基于马氏抽样的分布集成机器学习的理论和算法进行了系统研究,在理论研究和算法设计两方面均取得了比较好的研究成果。理论研究方面取得的主要成果包括:对基于马氏抽样的核弹性网正则化、多核支持向量机、在线成对支持向量机、多分类支持向量机等算法的一致性、收敛速率和泛化性能进行了系统地研究;对基于马氏抽样的支持向量机集成学习、增量学习和分布式学习的一致性、收敛速率和泛化性能等进行系统地研究,这些理论研究成果不仅丰富或发展了已有的机器学习理论,而且为上述算法在实际问题中的应用建立了理论基础和理论保障。算法设计方面取得的主要成果包括:提出了具有较好学习性能的基于马氏抽样核弹性网正则化、多核支持向量机、在线成对支持向量机算法以及基于马氏抽样的多分类支持向量机等新算法;提出了基于马氏抽样的支持向量机集成学习、增量学习和分布式学习等新算法,数值实验结果表明:相对于已有算法,我们提出的上述算法不仅具有更好的泛化性能,而且所需的抽样与训练总时间更少。这些新算法为数据分析与挖掘、以及大数据环境下分布集成学习、增量学习提供了新思路和新方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验
基于马氏抽样的机器学习理论与算法研究
大数据环境下基于选择性抽样的在线学习理论与算法研究
分布式计算环境下的并行数据挖掘算法与理论研究
面向大数据的渐进式集成学习方法与分布式算法研究