大数据环境下基于马氏重抽样的分布式集成学习的理论与算法

基本信息
批准号:61772011
项目类别:面上项目
资助金额:53.00
负责人:邹斌
学科分类:
依托单位:湖北大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:徐婕,付应雄,陈芬,殷蕾,石畏,王德胜,赵力,陈伟健,洪贝
关键词:
马氏重抽样集成学习分布式理论与算法大数据
结项摘要

The distributed ensemble learning is a fundamental method of the big data processing at present. In this project we plan to deal with the small data sets that big data divided into using the method of Markov resampling such that the Markov chains reach quickly the limiting distribution or the stationary distribution after many times Markov resampling. Then we can use the information of the distribution to purify the small data sets, optimize the load balancing and the computational efficiency of the distributed ensemble learning. The aim of this project is to establish the theoretical framework and design novel algorithms for the distributed ensemble learning based on Markov resampling, and then use them to deal with the practical problem of the big data processing and present some new idea and novel method for mining big data by studying the sufficient conditions that the basic learning machines based on Markov resampling have good generalization ability and the basic learning machines based on Markov resampling have large otherness, and establilshing the basic principle for the ensemble fashion and the combined criterion of the basic learning machines based on Markov resampling.

分布式集成学习是目前大数据处理的一个基本方法。本项目拟通过对大数据分割后的小数据集进行马氏重抽样,使得多次马氏重抽样后的马氏样本序列较快达到数据的极限分布或平稳分布,从而应用数据分布的信息对小数据集进行价值提纯,优化分布式学习的负载均衡和计算效率。通过对基于马氏重抽样的基本学习机有较好泛化性能和较大差异性所满足的条件,以及基于马氏重抽样的基本学习机的集成方式和合并准则等问题的研究,建立大数据环境下基于马氏重抽样的分布式集成学习的理论框架,设计出适合大数据特性的基于马氏重抽样的分布式集成学习的新算法,并将理论和算法研究成果应用到大数据处理的实际问题中,为大数据挖掘提供新思路和新方法。

项目摘要

在本项目中,我们对基于马氏抽样的分布集成机器学习的理论和算法进行了系统研究,在理论研究和算法设计两方面均取得了比较好的研究成果。理论研究方面取得的主要成果包括:对基于马氏抽样的核弹性网正则化、多核支持向量机、在线成对支持向量机、多分类支持向量机等算法的一致性、收敛速率和泛化性能进行了系统地研究;对基于马氏抽样的支持向量机集成学习、增量学习和分布式学习的一致性、收敛速率和泛化性能等进行系统地研究,这些理论研究成果不仅丰富或发展了已有的机器学习理论,而且为上述算法在实际问题中的应用建立了理论基础和理论保障。算法设计方面取得的主要成果包括:提出了具有较好学习性能的基于马氏抽样核弹性网正则化、多核支持向量机、在线成对支持向量机算法以及基于马氏抽样的多分类支持向量机等新算法;提出了基于马氏抽样的支持向量机集成学习、增量学习和分布式学习等新算法,数值实验结果表明:相对于已有算法,我们提出的上述算法不仅具有更好的泛化性能,而且所需的抽样与训练总时间更少。这些新算法为数据分析与挖掘、以及大数据环境下分布集成学习、增量学习提供了新思路和新方法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

DOI:10.14116/j.nkes.2021.03.003
发表时间:2021

邹斌的其他基金

批准号:51875319
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:60672091
批准年份:2006
资助金额:25.00
项目类别:面上项目
批准号:10947131
批准年份:2009
资助金额:3.00
项目类别:专项基金项目
批准号:61370002
批准年份:2013
资助金额:62.00
项目类别:面上项目
批准号:51005136
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:61871158
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:61070225
批准年份:2010
资助金额:25.00
项目类别:面上项目
批准号:51575322
批准年份:2015
资助金额:68.00
项目类别:面上项目

相似国自然基金

1

基于马氏抽样的机器学习理论与算法研究

批准号:61370002
批准年份:2013
负责人:邹斌
学科分类:F0201
资助金额:62.00
项目类别:面上项目
2

大数据环境下基于选择性抽样的在线学习理论与算法研究

批准号:61403132
批准年份:2014
负责人:徐婕
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目
3

分布式计算环境下的并行数据挖掘算法与理论研究

批准号:60975039
批准年份:2009
负责人:何清
学科分类:F0603
资助金额:33.00
项目类别:面上项目
4

面向大数据的渐进式集成学习方法与分布式算法研究

批准号:61473194
批准年份:2014
负责人:黄哲学
学科分类:F0603
资助金额:80.00
项目类别:面上项目