海量高维天体光谱数据挖掘及其并行化研究

基本信息
批准号:61272263
项目类别:面上项目
资助金额:80.00
负责人:张继福
学科分类:
依托单位:太原科技大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:杨海峰,胡立华,刘爱琴,荀亚玲,娄圣金,石岩,钟利华
关键词:
LAMOST天体光谱海量高维数据挖掘稀疏子空间FIUT树并行化
结项摘要

Aiming at three major science tasks of the great national science engineering project LAMOST,this project makes research on massive and high dimensional data mining of celestial spectra data and its parallel technology around the key scientific issue which is "Looking for the special celestial body with tracing properties and the universe awareness of unknown laws". The main research work is as follow: Local outlier mining algorithm of massive and high dimensional data set and its parallelization based on subspace and attribute correlation analysis; Frequent pattern mining algorithm and its parallelization based on address table and FIUT tree structure; Celestial body spectrum-oriented reduction and representation of association rule; Performance optimization of data mining algorithms and load balancing under the cluster environments; Parallel oulier mining technology of massive and high dimensional celestial spectra ; The parallelization technology of correlation analysis of massive and high dimensional celestial spectra data based on association rule; Celestial spectra data mining system under Hadoop environments. The research on the project not only affords effective ways and means for massive and high dimensional data mining, but also further provides core support technologies for improving the scientific output of LAMOST, discovering unknown special celestial bodies and the astronomical law, and the cross-certification of unknown celestial bodies.

本项目针对国家重大科学工程LAMOST项目的三大科学任务,围绕拟解决的关键科学问题"寻找具有示踪性质的特殊天体以及宇宙未知规律的认识",对海量高维天体光谱数据挖掘及其并行化技术进行研究,主要研究内容包括:基于子空间和属性相关性的海量高维局部离群数据挖掘算法及其并行化;基于地址表和FIUT树结构的频繁模式挖掘算法及其并行化;面向天体光谱数据的关联规则约简与表示;集群环境下的数据挖掘算法性能优化与负载均衡;海量高维天体光谱离群数据并行挖掘技术;基于关联规则的海量高维天体光谱数据相关性分析并行化技术;Hadoop环境下的天体光谱数据挖掘系统。该课题的研究不仅为海量高维数据挖掘,拟提出一种有效的方法和途径,而且也可望为进一步提高LAMOST的科学产出,实现未知特殊天体光谱数据和天文规律的知识发现,以及未知特殊天体的交叉认证,提供核心支撑技术。

项目摘要

本项目以国家重大科学工程LAMOST为应用背景,对海量高维天体光谱数据挖掘及其并行化技术进行了深入、系统的研究与探索,已圆满完成了研究内容,取得良好的研究成果,达到了预期研究目标和效果。所取得的重要成果包括:提出了一种基于基于FIUT树和MapReduce编程模型的并行频繁项集挖掘方法-FiDoop,以及一种在集群中平衡节点负载的数据分区方法,并进一步优化了FiDoop,使其更适合处理高维数据;针对并行频繁模式FIM算法,提出了一种的集群环境下有效数据划分方法FiDoop-dp,FiDoop-dp考虑了项目以及事物之间的相关性,并对项目分组和事物划分,减少了网络传输量也降低了各节点的计算负载,同时结合Voronoi 图和LSH技术,实现了该数据划分策略;提出了一种约束频繁模式并行化挖掘算法,采用了基于频繁项支持度的数据分组策略,实现了数据记录迁移,并有效地解决了频繁模式生成过程中的负载均衡问题,同时也给出了一种重定向任务调度算法,缩短了作业完成时间和降低系统资源消耗,提高了作业并行化程度;采用MapReduce编程模型和LSH分布式策略,提出了一种MapReduce编程模型下的局部离群数据并行挖掘算法;提出了一种基于wk-距离的离群数据挖掘算法Miner*,开发了恒星光谱离群数据挖掘原型系统等。其研究成果不仅为海量高维数据挖掘,提供了一种有效的方法和途径,而且也为进一步提高LAMOST的科学产出,实现未知特殊天体光谱数据和天文规律的知识发现,提供了核心支撑技术。该项目所取得的成果已在《IEEE TPDS》、《IEEE TSMCS》和《软件学报》等国内外学术刊物和学术会议上,发表与录用学术论文14篇,其中:CCF A类期刊2篇、B类期刊1篇、C类期刊2篇;SCI刊物9篇、EI刊物3篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

张继福的其他基金

相似国自然基金

1

高维海量恒星光谱数据的并行子空间聚类分析

批准号:61876122
批准年份:2018
负责人:张继福
学科分类:F0605
资助金额:64.00
项目类别:面上项目
2

基于海量、多域、高维数据挖掘的中医疗效分析方法研究

批准号:81774138
批准年份:2017
负责人:郭艳
学科分类:H3302
资助金额:55.00
项目类别:面上项目
3

基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术

批准号:60773014
批准年份:2007
负责人:张继福
学科分类:F06
资助金额:26.00
项目类别:面上项目
4

集群环境下的天体光谱离群数据挖掘与性能优化

批准号:61572343
批准年份:2015
负责人:张继福
学科分类:F0607
资助金额:64.00
项目类别:面上项目