分布式计算环境下的并行数据挖掘算法与理论研究

基本信息
批准号:60975039
项目类别:面上项目
资助金额:33.00
负责人:何清
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:丁世飞,曾立,马慧芳,许新征,林芬,李金成,马旭东,罗文娟,刘伟民
关键词:
分布式计算环境云计算并行数据挖掘点对点计算多主体
结项摘要

云计算的兴起,迫切需要对不同分布式计算环境下的并行数据挖掘算法展开深入研究。本项目研究分布式计算环境下的并行数据挖掘算法与理论,旨在解决在分布式计算环境下如何提供高效率的、鲁棒的和负载平衡的并行数据挖掘服务问题。研究数据挖掘算法的并行化策略问题,提出实用、高效的并行算法;研究数据挖掘算法对Hadoop,P2P,Multi-Agent三个分布式计算环境的适应性问题,包括算法选择、算法设计、参数调节、性能提高问题,找到数据规模、算法复杂性、节点数之间的关系,发现加速比和可扩展性的影响因素;研究数据挖掘任务调度与负载均衡,提出以节点状态、存储能力、活动周期、最近活动时间等为评估要素的负载评估模型和基于进化计算的任务调度算法;研究通讯代价问题,提出通讯代价小的通讯策略;基于算法机理提出安全挖掘策略,用于解决隐私保护问题。开发并行数据挖掘算法与评估原型系统。

项目摘要

本项目研究了分布式计算环境下特别是Hadoop环境下的并行数据挖掘算法,取得了一系列研究成果,在IEEETKDE等国际期刊上发表录用文章39篇,在IJCAI、AAAI、CIKM等国际会议上发表论文32篇,总计被SCI收录22篇,被EI收录73篇。获得SDM10国际会议最佳论文提名,获得CIKM10最佳论文提名。申请国家发明专利2项,获得1项,获得软件著作权3项。在中国有关云计算的大会上做特邀技术报告4次。在分布式数据挖掘计算环境比较方面,研究了数据挖掘算法对Hadoop,P2P,Multi-Agent 三个分布式计算环境的适应性问题,发现Hadoop环境是目前大数据挖掘高效、简便、实用的计算环境,P2P数据挖掘更适合企业或机构内部数据的分类和聚类等数据挖掘任务。在此基础上,着重在Hadoop平台基础上采用MapReduce编程模式,在并行数据挖掘算法研究中选择并行度高、复杂度低、精度有保证的算法进行并行,提出了并行增量极端支持向量机分类算法;并行关联规则算法;并行k-近邻;并行朴素贝叶斯等分类算法;并行决策树算法;基于KD-Tree的异常点并行发现算法;并行KMeans聚类算法设计;并行CLARANS聚类算法;并行PLSA算法;并行ELM回归分析算法等实用、高效的并行算法,实现了基于MapReduce的一系列高效并行数据预处理和数据挖掘算法。针对这些算法,在算法并行设计、参数调节规律、性能提高途径方面进行了深入研究,通过实验给出了不同算法在不同数据规模、算法复杂性、节点数情况下并行效率包括加速比、扩展性、伸缩率,给出了不同算法影响加速比和可扩展性的因素。研究基于数据变换的隐私保护方法,提出了保护数据隐私的基于PLSA的多模型合并算法。在这个过程中不需要披露基础数据,这样保护了数据隐私。除此之外,还在基础的数据挖掘与机器学习算法方面开展了深入研究,取得了一系列成果,包括:迁移学习算法,基于超曲面的系列算法,基于进化规划的FCMBP模糊聚类改进算法,研究了神经网络算法选择、算法优化、参数调节、性能提高等问题,开发了高效实用的并行数据挖掘算法与评估系统,系统已成功用于中兴通信、国家电网、信息安全、无锡物联网等行业领域的TB级大数据挖掘,为企业创造了可观的经济效益。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

何清的其他基金

批准号:81200163
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:41375163
批准年份:2013
资助金额:90.00
项目类别:面上项目
批准号:91546122
批准年份:2015
资助金额:43.00
项目类别:重大研究计划
批准号:60675010
批准年份:2006
资助金额:25.00
项目类别:面上项目
批准号:61175052
批准年份:2011
资助金额:57.00
项目类别:面上项目
批准号:41175017
批准年份:2011
资助金额:80.00
项目类别:面上项目
批准号:40775019
批准年份:2007
资助金额:40.00
项目类别:面上项目
批准号:21901069
批准年份:2019
资助金额:27.50
项目类别:青年科学基金项目
批准号:60173017
批准年份:2001
资助金额:18.00
项目类别:面上项目
批准号:11902075
批准年份:2019
资助金额:23.00
项目类别:青年科学基金项目
批准号:91846113
批准年份:2018
资助金额:20.00
项目类别:重大研究计划
批准号:61573335
批准年份:2015
资助金额:67.00
项目类别:面上项目

相似国自然基金

1

大数据环境下的文本挖掘并行处理技术研究

批准号:61802444
批准年份:2018
负责人:艾玮
学科分类:F0204
资助金额:25.00
项目类别:青年科学基金项目
2

分布式并行算法与分布式并行处理计算机结构关系的研究

批准号:69173322
批准年份:1991
负责人:张德富
学科分类:F02
资助金额:3.00
项目类别:面上项目
3

分布式环境下动力分析有限元并行算法与软件

批准号:19672032
批准年份:1996
负责人:程建钢
学科分类:A0813
资助金额:9.00
项目类别:面上项目
4

大数据环境下基于同步原理的数据流挖掘算法研究

批准号:61403062
批准年份:2014
负责人:邵俊明
学科分类:F0603
资助金额:25.00
项目类别:青年科学基金项目