Centering on the key scientific problem being to solve“parallel mining theory and method of outliers from astronomical spectra data”,and making fully use of the strong data handling capacity of cluster system and MapReduce programming model,the project is to make deep research on the data mining method of astronomical spectra data and performance optimization of cluster system.The main research works are as follows:measure and search method of relative subspace oriented outliers,a related subspace and contextual information,a related subspace based contextual outlier mining algorithm and its parallelization,energy-driven data placement strategy,data placement strategy for load balancing,task scheduling algorithm of dynamic data placement,the dynamic weighted Shuffle strategy based on the feeback of the computing nodes,and outliers mining prototype system of astronomical spectra data.The project not only provides a new method and technology for mining unknown and special celestial objects from the large quantity of high-dimensional data,and further improves the scientific output of LAMOST.In addition,the project also offers an effective new method of outlier mining,as well as the realization approach of cluster system and performance optimization of programming model.
本项目围绕拟解决的关键科学问题“从天体光谱数据中,并行挖掘离群数据的理论和方法”,充分利用集群系统和MapReduce编程模型强大的数据处理能力,拟对天体光谱离群数据挖掘方法与编程模型性能优化进行深入研究。主要研究内容包括:面向离群数据的相关子空间度量与搜索、相关子空间与上下文有关信息的定义、相关子空间中的上下文有关离群数据挖掘算法及其并行化、能量驱动的数据放置策略、负载均衡的数据放置策略、动态数据放置的任务调度算法、基于计算结点反馈的动态权值Shuffle策略、天体光谱数据离群挖掘原型系统等。该项目研究不仅为实现从高维、海量天体光谱数据中挖掘未知和特殊的天体,进一步提高LAMOST的科学产出,拟提供一种新方法和新技术,同时也为海量高维数据分析处理,拟提供有效的离群数据挖掘新方法,以及集群系统与编程模型性能优化的实现途径。
本项目以国家重大科学工程LAMOST为应用背景,围绕拟解决的关键科学问题“从天体光谱数据中,并行挖掘离群数据的理论和方法”,充分利用集群系统和MapReduce/SPARK编程模型处理大型计算问题的能力,对海量高维天体光谱数据挖掘方法及技术进行了深入、系统的研究与探索,已圆满完成了研究内容,取得良好的研究成果,达到了预期研究目标和效果。所取得的重要成果包括:提出了一种基于相关子空间的上下文离群数据挖掘算法,以及一种MapReduce编程模型下的上下文离群数据并行挖掘算法,该算法所依据相关子空间属性信息,有效地提高离群数据的可解释性和可理解性;提出了一种基于加权特征分组的离群数据挖掘方法,以及一种基于Spark平台的处理高维海量数据集的并行框架,并采用RDD缓存、参数调优和数据放置等性能优优化策略,进一步提高了POS算法的性能;提出了一种基于属性相关性分析的局部离群数据检测算法,以及一种基于MapReduce的上下文离群数据并行检测算法,并利用构成稀疏子空间的属性信息,给出了相应的离群对象解释;针对并行kNN-join操作中出现的数据倾斜现象,提出了一种新的数据划分方法,有效地缓解负载不平衡问题;采用基于相关子空间的离群挖掘方法,从LAMOST DR3星系光谱数据中获得的离群数据挖掘结果中,针对呈现出多种稀有特征的光谱J140242.45+092049.8进行了深入特征分析等。其研究成果不仅能够实现从海量高维天体光谱数据中挖掘未知的、特殊的天体,进一步提高LAMOST的科学产出,而且也为大数据分析处理,提供有效的离群数据挖掘新方法、新算法以及有效的并行化实现途径。该项目所取得的成果已在《IEEE TPDDS》、《IEEE TSMC: Systems》、《Information Sciences》、ICDE等国内外学术刊物和学术会议上,已发表与录用学术论文14篇,其中:CCF 推荐的A类期刊和A类国际会议各1篇、B类期刊1篇、C类期刊3篇;IEEE汇刊3篇;SCI期刊9篇、EI刊物 2 篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
拥堵路网交通流均衡分配模型
MapReduce集群环境下的恒星光谱关联规则挖掘及性能优化
基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术
海量高维天体光谱数据挖掘及其并行化研究
集群环境下基于内存的高性能数据管理与分析