Centering on the key scientific problem to be solved“parallel association rules mining theory, method and technology from massive and high-dimensional stellar spectra data”, the association rules mining method of stellar spectra data and performance optimization will be deep researched under MapReduce cluster environment in this proposal, by making fully use of the strong computing capacity of cluster system and MapReduce programming model. Main research works of the proposal include parallel and incremental mining of stellar spectra data, load balancing and data placement strategy oriented parallel association rules mining, a redirect task scheduling strategy for association rule mining based on MapReduce programming model, association rule mining technology and prototype system of stellar spectra data, et al. Research results of the proposal can find the inherent correlations of spectral characteristics and stellar atmosphere parameters from massive and high-dimensional stellar spectra data, not only to provide effective support for improving the measurement accuracy of these parameters, but also to provide further evidence for the study of stellar evolution. Furthermore, the research results will also offer an effective method and realization way of parallel association rules mining and performance optimization for big data analysis and processing.
本项目围绕拟解决的关键科学问题“从海量高维恒星光谱数据中,并行挖掘关联规则的理论、方法和技术”,充分利用集群系统和MapReduce编程模型的强大计算能力,拟对MapReduce集群环境下的恒星光谱关联规则挖掘及其性能优化进行深入研究,主要内容包括:面向恒星光谱数据的并行关联规则增量挖掘;面向关联规则并行挖掘的负载均衡与数据放置策略;MapReduce编程模型下的关联规则任务重定向调度策略;MapReduce集群环境下的恒星光谱关联规则挖掘技术和原型系统等。该项目研究将能从海量高维恒星光谱数据中挖掘光谱特征与恒星大气参数内在的相关性,不仅为提高恒星参数测量的准确性提供有效支持,而且也能进一步为恒星演化的研究提供有力证据。此外,该项目研究也可为大数据分析处理,提供一种有效的关联规则并行挖掘及性能优化新方法以及实现途径。
关联规则作为数据挖掘领域中的一个主要研究内容,可有效发现数据项目背后隐藏的有趣并发关系。面对天文领域“数据雪崩”和“信息爆炸”时代的到来,本项目对关联规则并行挖掘方法与集群系统性能优化进行深入研究,取得了良好的研究成果,达到了预期研究目标。项目主要研究成果包括:(1)针对实时动态数据集,提出一种基于全压缩频繁模式树(FCFP-Tree)和多尺度的关联规则增量更新算法;(2)利用MapReduce编程模型强大的计算能力,给出了一种新的并行频繁项集挖掘算法,并针对频繁项集并行挖掘过程中存在的数据非本地性问题,提出了一种新的数据划分策略;(3)为实现各计算节点之间的计算任务的均衡分组,在Spark集群环境下,提出了一种适用于大数据处理的频繁项集挖掘HBPFP(High Balanced Parallel FP-Growth)算法;(4)针对高维分类数据集,在Spark集群环境下,提出了一种基于特征分组的并行离群挖掘算法;(5)采用基于DoPS的数据挖掘方法,从LAMOST DR5星系光谱数据获得的离群数据挖掘结果中,呈现出疑似P-Cygni轮 廓 特 征 的 光 谱 J152238.11+333136.1进行了深入讨论。该课题的研究不仅为研究恒星演化提供帮助,进一步提高LAMOST的科学产出,同时也为大数据分析处理,提供一种有效的关联规则挖掘与性能优化新方法以及实现途径。该项目所取得的成果已发表在《Information science》、《IEEE Access》 、《光谱学与光谱分析》等国内外学术刊物和学术会议上,发表与录用论文10篇,专著1部。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
拥堵路网交通流均衡分配模型
卫生系统韧性研究概况及其展望
集群环境下的天体光谱离群数据挖掘与性能优化
多Slot环境下的MapReduce能耗模型及优化研究
空间关联规则挖掘尺度优化的模型和算法
图文关联的空间关系及语义规则挖掘