Principal curve learning is one of the important data analysis tools in dimensionality reduction, data visualization, pattern recognition and other fields. At present, a large number of principal curve algorithms are put forward in succession, but existing algorithms when dealing with massive complex data exist high computational complexity, low accuracy and poor adaptability. Based on human’s multi-granulation cognitive mechanism in handling complex issues, deep learning strategies and intelligent optimization methods, the project aims to systematically analyze and investigate the principal curve learning multi-granulation modeling of massive complex data to solve the problem. The main contents include as follows: 1) Granulating and spliting the large scale complex data to form local data, building local principal curves learning models and extracting features; 2) Invoking the underlying ideas of granular computing, we will construct the global principal curves learning model by multigranulation ensemble modeling of local models; 3) Referring to the strategies of extracting features layer by layer and raining used for deep learning, we will design methods of data acquisition and model training between models; 4) Establishing methods and algorithms for granularity selection of the global principal curves learning model; 5) Conducting the experiments on the principal curves learning model to validate the model and relative algorithms. The key scientific problem is multi-granulation information fusion technology among models. The project will provide a new solution when realizing principal curves learning with massive complex data. The results of project will promote the development of nonlinear intelligent information processing, and have important theoretical significance.
主曲线学习是维数约简、数据可视化、模式识别等领域对数据进行分析的重要工具之一。目前大量主曲线算法被相继提出,但现有算法在处理大规模复杂数据时存在算法耗时过大、准确率低、适应性差等缺点。本项目拟借鉴人处理复杂问题的多粒度认知机理和深度学习策略,依据智能优化方法,通过对大规模复杂数据进行主曲线多粒度建模与分析来解决该问题。研究内容为:1)对规模庞大、结构复杂的数据进行粒化拆分,形成局部数据,进行局部主曲线学习建模和特征提取;2)基于粒计算思想,进行局部模型到全局模型的主曲线多粒度建模;3)借鉴深度学习的逐层特征提取及训练策略,设计模型间特征信息获取和训练方法; 4) 给出模型的粒度选择算法。5)对该模型进行分析与验证。其关键科学问题是模型间特征信息的多粒度融合技术。本项目的研究将不仅为大规模复杂数据主曲线学习提供一种新的解决方案,而且对推动非线性智能信息处理的发展具有重要的理论意义。
主曲线学习是维数约简、数据可视化、模式识别等领域对数据进行分析的重要工具之一。针对现有算法在处理大规模复杂数据时存在算法耗时过大、准确率低、适应性差等缺点。课题组借鉴人处理复杂问题的多粒度认知机理和深度学习策略,依据智能优化方法,研究了通过对大规模复杂数据进行主曲线多粒度建模与分析来解决主曲线提取问题,并将其应用于图像检索、行人再识别和书法字动态重现等领域。取得的主要研究成果为:1)提出基于拐点估计的改进谱聚类算法来解决规模庞大、结构复杂的数据的粒化问题;2)提出基于MapReduce的分布式软K段主曲线算法来解决海量数据主曲线提取问题,先提出动态覆盖信息系统的知识约简方法消除数据冗余,然后采用我们提出的粒化算法对数据进行粒化,形成局部数据,基于MapReduce并行局部主曲线提取,最后借助哈密顿路径和贪婪算法的思想,从局部到全局形成整个数据的主曲线;3)研究复杂数据主曲线学习和特征提取问题,提出用平衡K均值聚类算法将数据空间粒化成多个局部数据,采用互信息方法度量局部数据间的关联性,进行局部特征提取,提出了基于覆盖信息系统的增量式属性约简算法来进行特征选取;4)研究基于局部主曲线的逐层多粒度主曲线建模,利用主曲线的方向梯度,形状特征和曲线的几何特征等信息,结合深度学习思想,进行逐层特征提取,基于覆盖度和特异性的特征信息进行多粒度特征融合,依据粒计算的多粒度多层次思想进行从局部到全局的逐层主曲线建模;5)将模型应用于图像检索、书法字动态重现等复杂数据分析处理,实现对模型进行分析验证。本项目的研究不仅为大规模复杂数据主曲线学习提供一种新的解决方案,而且对推动非线性智能信息处理的发展具有重要的理论意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向大规模复杂数据的多粒度知识发现关键理论与方法研究
面向大规模复杂数据的地铁施工安全多粒度知识发现与动态风险感知研究
基于粒计算的复杂形态数据主曲线提取与分类研究
面向领域用户知识发现的数据结构化建模与多粒度融合