面向海量超高维数据的随机森林算法理论及优化方法研究

基本信息

批准号：61203294

项目类别：青年科学基金项目

资助金额：25.00

负责人：李俊杰

学科分类：

依托单位：深圳大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：潘莉,扎拉玛,李炳国,郭向林,杨雪松,高琴

关键词：

数据分类海量数据挖掘机器学习随机森林算法

结项摘要

Thousands upon thousands of features of ultra-high-dimensional large scale data become a new challenge to classification algorithms. Currently, the accuracy of most classification algorithms is low for ultra-high-dimensional data, and most algorithms cannot process large scale data. Many research works have shown that the random forest algorithm outperforms other classification algorithms in high dimensional data. But it still has the bottleneck to process TB scale ultra-high-dimensional data. This project will further improve the random forest theory and optimize the algorithm to process bigger data based on our preliminary works. The major tasks of this project include: 1) Prove that the accuracy of the weighted subspace sampling random forest algorithm is higher than Breiman's approach in ultra-high-dimensional data. The proof will enrich the theories of random forest algorithms. 2) For the problems of complex data, design a hybrid random forest algorithm, which builds multiple decision trees simultaneously with different decition tree algorithms; and design an interactive random forest optimization method, which reduces the shortcomings of random forests built with a single decision tree algorithm. 3) For the problems of large scale data, design a MapReduce scalable random forest algorithm and experimental platform, which can build classification models for TB scale data.The expected delivables will contribute new theories and tools to solve large scale data classification problems.

具有成千上万个属性的大规模超高维数据给现有分类算法带来前所未有的挑战，目前常用的算法对超高维数据分类的精度低，无法处理大数据。许多研究结果表明，随机森林分类算法处理高维数据优于其它分类算法，但用于TB级规模超高维数据的分类建模还有很大瓶颈。本项目基于前期的研究成果，进一步从理论和算法优化两个方面深入研究大数据分类的随机森林技术。研究内容包括：1）从理论上证明在超高维数据条件下，属性加权子空间抽样随机森林算法的精度不低于Breiman随机森林算法的精度，进一步丰富随机森林算法的理论；2）针对数据属性繁杂问题，研究多种决策树算法同时运用的混合随机森林优化方法和动态交互式随机森林优化方法，弥补目前采用单一决策树算法的缺陷； 3）针对数据规模大问题，开发基于MapReduce编程模型的高可扩展随机森林算法和实验系统，突破TB级大数据分类的技术瓶颈。预期成果将为大数据分类提供新的理论及应用工具。

项目摘要

随机森林（random forests）是一种有监督的集成学习分类技术，其分类模型由一组决策树分类器组成，模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果。多个不同的对比研究表明，对于高维复杂数据，随机森林的综合性能指标，如算法效率、分类精度等，明显优于其他单分类器和集成分类器。因此, 本项目将系统地从理论和算法优化两个方面深入研究并完善大数据分类的随机森林技术。重点研究内容和执行情况如下：1）针对超高为高维数据给随机森林算法带来的一系列性能下降的问题，我们创新地提出了一系列的解决方法，包括提出用p-value评估方法，找出重要的特征子集，我们提出了eQRF算法；提出多层特征抽样的改良方法ssRF，通过p-value可以找到可以区分特征属性信息含量的断裂点，计算出不同信息含量特征属性的软子空间权重，我们可以按比例对不同子空间权重的特征属性子集进行抽样。ssRF算法要比eQRF算法的准确性更好，相关的成果已经连续两年在PAKDD会议上发表。2）针对数据属性繁杂问题，研究多种决策树算法同时运用的混合随机森林优化方法和动态交互式随机森林优化方法，弥补目前采用单一决策树算法的缺陷；我们开发了一套完整的交互式可视化系统，申请了相关的专利和软件著作权 3）随机森林在实际问题中的使用，我们提出了多种利用随机森林算法解决基因数据分类和SNPs特征提取的方法，包括具有引导性正则约束的随机森林方法和基于双层质量提高的随机森林算法。相关论文已在国外高水平期刊上发表。我们还尝试使用随机森林算法解决湄公河水位预测的实际问题，取得了较好的成果。本项目取得的成果已经为随机森林大数据分析提供新的理论及应用工具。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

李俊杰的其他基金

批准号：11174362

批准年份：2011

资助金额：68.00

项目类别：面上项目

批准号：51874245

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：21908212

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：60978052

批准年份：2009

资助金额：10.00

项目类别：面上项目

批准号：51769033

批准年份：2017

资助金额：37.00

项目类别：地区科学基金项目

批准号：91023041

批准年份：2010

资助金额：220.00

项目类别：重大研究计划

批准号：11674387

批准年份：2016

资助金额：70.00

项目类别：面上项目

批准号：41271517

批准年份：2012

资助金额：75.00

项目类别：面上项目

批准号：31100674

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：51805197

批准年份：2018

资助金额：24.00

项目类别：青年科学基金项目

批准号：81902887

批准年份：2019

资助金额：20.50

项目类别：青年科学基金项目

批准号：81500492

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：81802115

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：59209083

批准年份：1992

资助金额：4.50

项目类别：青年科学基金项目

批准号：41001183

批准年份：2010

资助金额：22.00

项目类别：青年科学基金项目

批准号：19001027

批准年份：1990

资助金额：0.80

项目类别：青年科学基金项目

批准号：50472071

批准年份：2004

资助金额：10.00

项目类别：面上项目

批准号：60671048

批准年份：2006

资助金额：25.00

项目类别：面上项目

批准号：51101124

批准年份：2011

资助金额：26.00

项目类别：青年科学基金项目

批准号：31370975

批准年份：2013

资助金额：85.00

项目类别：面上项目

相似国自然基金

面向海量数据处理的多核学习算法及其并行优化方法研究

批准号：61005045

批准年份：2010

负责人：胡明清

学科分类：F0603

资助金额：20.00

项目类别：青年科学基金项目

面向大数据的随机森林机器学习理论与算法研究

批准号：61602482

批准年份：2016

负责人：张英华

学科分类：F06

资助金额：21.00

项目类别：青年科学基金项目

面向大数据的张量分解理论及随机化算法研究

批准号：61673124

批准年份：2016

负责人：周郭许

学科分类：F0605

资助金额：63.00

项目类别：面上项目

面向森林变化监测的海量遥感数据并行处理技术研究

批准号：31770768

批准年份：2017

负责人：景维鹏

学科分类：C1614

资助金额：60.00

项目类别：面上项目

面向海量超高维数据的随机森林算法理论及优化方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

新型树启发式搜索算法的机器人路径规划

"多对多"模式下GEO卫星在轨加注任务规划

智能煤矿建设路线与工程实践

李俊杰的其他基金

金属复合纳米结构的表面等离激元调控与杂化效应及拉曼增强特性研究

钛合金激光立体成形中凝固与固态相变全流程微观组织演化机制

多级孔MFI分子筛的精准制备及其MTA反应性能研究

仿蛾眼表面纳米锥结构的制备及其抗反射特性的研究

高陡岩质边坡破坏接触模型与三维DDA数值模拟研究

表面纳米锥的无掩膜制造及光电特性

基于纳米薄膜的三维组装加工方法及其光学特性调控应用研究

华南露天金属矿山土壤侵蚀特征及其对重金属迁移的驱动效应研究

多重功能性可注射自组装微球支架的研制及其对心肌梗死微环境的调控作用

面向高密度封装的低温自修复铜互连形成研究

HDAC6表观修饰RBBP4调控TPD52L2/Wnt/β-catenin信号轴促进胶质母细胞瘤放化疗抵抗的机制研究

树突状细胞内RNA编辑酶ADAR1调节移植免疫反应及其机制研究

基于功能核酸/MOFs生物探针的血液miRNA指纹分析用于乳腺癌早期诊断

面板堆石坝现场弹性波试验及动力流固耦合计算方法研究

城市土壤重金属污染物来源与迁移过程的同位素联合示踪研究

非线性退化方程

碳纳米管锥的场电子发射研究

铁电高分子共聚物薄膜PVDF-TrFE的电子发射特性研究

基于主曲率分布概率分析的三维凝固组织粗化动力学研究

基于电导活性/强度可控的新型心肌组织工程用智能水凝胶的研制及其评价

相似国自然基金