Stellar spectra are the superposition of continuum spectra and spectral lines, and closely related to parameters of physical, chemical properties and kinematic characteristics of stars. Furthermore, stellar spectra have some characteristics of big data such as mass, high dimension, nonlinear, diversity and multi-sources etc. By making full use of strong computing capacity of cluster system, this project makes deep research on subspace clustering analysis method in Hadoop/spark cluster environment and special recognition technology of unknown stellar spectral data around the key scientific issue which is" clustering analysis theory, methods and techniques for identifying and discovering special and unknown stellar spectra from the massive high-dimensional spectral data". The main research work is as follow: multi-attribute weight calculation method, subspace clustering analysis and parallelization, subspace clustering analysis and performance optimization in Hadoop/Spark cluster environment, cluster analysis technology and prototype system of star spectral subspace in Hadoop/spark cluster environment, and so on. The research on the project not only provide the theory, methods and technical support for discovering unknown and special stellar spectra from the massive high-dimensional stellar spectral data, as well as the cross certification of unknown and special objects, but also provide an effective parallel clustering analysis methods and new ways for processing of big data.
恒星光谱是连续谱与谱线的叠加,与恒星的物理化学性质和运动学特征等参数密切相关,并具有海量、高维、非线性、多样性和多源性等大数据特征。本项目围绕拟解决的关键科学问题“从海量高维光谱数据中,识别与发现特殊和未知恒星光谱的聚类分析理论、方法和技术”,充分利用集群系统强大的计算能力,拟对Hadoop/Spark集群环境下的子空间聚类分析方法与特殊未知恒星光谱数据识别技术进行深入研究。主要研究内容包括:多属性权重计算方法、子空间聚类分析及其并行化、Hadoop/Spark集群环境下的子空间聚类分析与性能优化、Hadoop/Spark集群环境下的恒星光谱子空间聚类分析技术与原型系统等。其研究成果不仅为实现从高维海量恒星光谱数据中发现未知和特殊恒星光谱,以及未知和特殊天体交叉认证,拟提供理论、方法和技术支持,同时也为大数据分析处理,拟提供有效的并行聚类分析新方法与新的实现途径。
本项目以国家重大科学工程LAMOST为背景, 绕拟解决的关键科学问题“从海量高维光谱数据中,识别与发现特殊和未知恒星光谱的聚类分析理论、方法和技术”,对Hadoop/Spark集群环境下的子空间聚类分析方法与特殊未知恒星光谱数据识别技术等进行了深入、系统的研究与探索,圆满完成了研究内容,达到了预期研究目标和效果。其主要成果汇总如下:.1)提出了多属性权重计算方法、基于多粒度数据桶的集群负载均衡机制,以及Hadoop集群环境下的并行子空间聚类分析算法等。.2)提出了基于局部敏感哈希LSH的数据划分策略、多目标簇集质量的聚类准则,以及Hadoop集群环境下的并行层次子空间聚类算法。.3)提出了基于逆近邻和影响空间的密度聚类分析算法,以及Spark集群环境下的并行密度聚类分析算法;基于标准差的k-medoids聚类算法、自适应聚类簇数的k-medoids聚类算法、基于高斯混合模型的相关子空间投影聚类分析算法、基于联合偏好矩阵和联合熵的多视图集成聚类分析算法。.4)提出了基于合并和拆分的聚类结构动态调整策列、稀疏簇中的离群数据(噪音点)动态识别技术,以及两阶段增量式子空间聚类ICE算法。.5)提出了基于多尺度与信息熵的恒星光谱数据离散化算法、多源恒星光谱数据离群检测算法,并设计与实现了基于子空间聚类的恒星光谱数据分析原型系统等。.本项目研究成果不仅为实现从高维海量恒星光谱数据中发现未知和特殊恒星光谱,以及未知和特殊天体交叉认证,拟提供理论、方法和技术支持,同时也为大数据分析处理,拟提供有效的并行聚类分析新方法与新的实现途径;已在《IEEE Transactions on Computers》(1篇)、《Information Sciences》(1篇)、《Expert Systems With Applications》(4篇)、《Applied Intelligence》(1篇)等国内外学术刊物,发表与录用学术论文9篇,其中:CCF 推荐的A类期刊1篇、B类期刊1篇、C类期刊4篇。此外,投稿在审论文5篇;培养博士研究生2 人(获博士学位),硕士研究生 5人(获工学硕士学位)。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
拥堵路网交通流均衡分配模型
基于多模态信息特征融合的犯罪预测算法研究
海量高维天体光谱数据挖掘及其并行化研究
确定斯隆海量光谱及测光数据恒星参数的方法研究
深度学习识别LAMOST海量光谱中特殊数据探求恒星演化特征
高维时间序列数据聚类分析及应用研究