面向海量超高维数据的随机森林算法理论及优化方法研究

基本信息
批准号:61203294
项目类别:青年科学基金项目
资助金额:25.00
负责人:李俊杰
学科分类:
依托单位:深圳大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:潘莉,扎拉玛,李炳国,郭向林,杨雪松,高琴
关键词:
数据分类海量数据挖掘机器学习随机森林算法
结项摘要

Thousands upon thousands of features of ultra-high-dimensional large scale data become a new challenge to classification algorithms. Currently, the accuracy of most classification algorithms is low for ultra-high-dimensional data, and most algorithms cannot process large scale data. Many research works have shown that the random forest algorithm outperforms other classification algorithms in high dimensional data. But it still has the bottleneck to process TB scale ultra-high-dimensional data. This project will further improve the random forest theory and optimize the algorithm to process bigger data based on our preliminary works. The major tasks of this project include: 1) Prove that the accuracy of the weighted subspace sampling random forest algorithm is higher than Breiman's approach in ultra-high-dimensional data. The proof will enrich the theories of random forest algorithms. 2) For the problems of complex data, design a hybrid random forest algorithm, which builds multiple decision trees simultaneously with different decition tree algorithms; and design an interactive random forest optimization method, which reduces the shortcomings of random forests built with a single decision tree algorithm. 3) For the problems of large scale data, design a MapReduce scalable random forest algorithm and experimental platform, which can build classification models for TB scale data.The expected delivables will contribute new theories and tools to solve large scale data classification problems.

具有成千上万个属性的大规模超高维数据给现有分类算法带来前所未有的挑战,目前常用的算法对超高维数据分类的精度低,无法处理大数据。许多研究结果表明,随机森林分类算法处理高维数据优于其它分类算法,但用于TB级规模超高维数据的分类建模还有很大瓶颈。本项目基于前期的研究成果,进一步从理论和算法优化两个方面深入研究大数据分类的随机森林技术。研究内容包括:1)从理论上证明在超高维数据条件下,属性加权子空间抽样随机森林算法的精度不低于Breiman随机森林算法的精度,进一步丰富随机森林算法的理论;2)针对数据属性繁杂问题,研究多种决策树算法同时运用的混合随机森林优化方法和动态交互式随机森林优化方法,弥补目前采用单一决策树算法的缺陷; 3)针对数据规模大问题,开发基于MapReduce编程模型的高可扩展随机森林算法和实验系统,突破TB级大数据分类的技术瓶颈。预期成果将为大数据分类提供新的理论及应用工具。

项目摘要

随机森林(random forests)是一种有监督的集成学习分类技术,其分类模型由一组决策树分类器组成,模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果。多个不同的对比研究表明,对于高维复杂数据,随机森林的综合性能指标,如算法效率、分类精度等,明显优于其他单分类器和集成分类器。因此, 本项目将系统地从理论和算法优化两个方面深入研究并完善大数据分类的随机森林技术。重点研究内容和执行情况如下:1)针对超高为高维数据给随机森林算法带来的一系列性能下降的问题,我们创新地提出了一系列的解决方法,包括提出用p-value评估方法,找出重要的特征子集,我们提出了eQRF算法;提出多层特征抽样的改良方法ssRF,通过p-value可以找到可以区分特征属性信息含量的断裂点,计算出不同信息含量特征属性的软子空间权重,我们可以按比例对不同子空间权重的特征属性子集进行抽样。ssRF算法要比eQRF算法的准确性更好,相关的成果已经连续两年在PAKDD会议上发表。2)针对数据属性繁杂问题,研究多种决策树算法同时运用的混合随机森林优化方法和动态交互式随机森林优化方法,弥补目前采用单一决策树算法的缺陷;我们开发了一套完整的交互式可视化系统,申请了相关的专利和软件著作权 3)随机森林在实际问题中的使用,我们提出了多种利用随机森林算法解决基因数据分类和SNPs特征提取的方法,包括具有引导性正则约束的随机森林方法和基于双层质量提高的随机森林算法。相关论文已在国外高水平期刊上发表。我们还尝试使用随机森林算法解决湄公河水位预测的实际问题,取得了较好的成果。本项目取得的成果已经为随机森林大数据分析提供新的理论及应用工具。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
5

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020

李俊杰的其他基金

批准号:11174362
批准年份:2011
资助金额:68.00
项目类别:面上项目
批准号:21908212
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:60978052
批准年份:2009
资助金额:10.00
项目类别:面上项目
批准号:51874245
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:51769033
批准年份:2017
资助金额:37.00
项目类别:地区科学基金项目
批准号:91023041
批准年份:2010
资助金额:220.00
项目类别:重大研究计划
批准号:11674387
批准年份:2016
资助金额:70.00
项目类别:面上项目
批准号:41271517
批准年份:2012
资助金额:75.00
项目类别:面上项目
批准号:31100674
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:51805197
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:81902887
批准年份:2019
资助金额:20.50
项目类别:青年科学基金项目
批准号:81500492
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:81802115
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:59209083
批准年份:1992
资助金额:4.50
项目类别:青年科学基金项目
批准号:41001183
批准年份:2010
资助金额:22.00
项目类别:青年科学基金项目
批准号:19001027
批准年份:1990
资助金额:0.80
项目类别:青年科学基金项目
批准号:50472071
批准年份:2004
资助金额:10.00
项目类别:面上项目
批准号:60671048
批准年份:2006
资助金额:25.00
项目类别:面上项目
批准号:51101124
批准年份:2011
资助金额:26.00
项目类别:青年科学基金项目
批准号:31370975
批准年份:2013
资助金额:85.00
项目类别:面上项目

相似国自然基金

1

面向海量数据处理的多核学习算法及其并行优化方法研究

批准号:61005045
批准年份:2010
负责人:胡明清
学科分类:F0603
资助金额:20.00
项目类别:青年科学基金项目
2

面向大数据的随机森林机器学习理论与算法研究

批准号:61602482
批准年份:2016
负责人:张英华
学科分类:F06
资助金额:21.00
项目类别:青年科学基金项目
3

面向大数据的张量分解理论及随机化算法研究

批准号:61673124
批准年份:2016
负责人:周郭许
学科分类:F0605
资助金额:63.00
项目类别:面上项目
4

面向森林变化监测的海量遥感数据并行处理技术研究

批准号:31770768
批准年份:2017
负责人:景维鹏
学科分类:C1614
资助金额:60.00
项目类别:面上项目