Complex data sets contain raw data without preprocessing. The lack of robust and practical methods for dimensionality reduction makes it very difficult to extract useful information from complex data. It is also the key issue needed to be resolved in areas such as machine learning, data mining, pattern recognition, and so on. The project considers the difficulties of dimensionality reduction for complex data and will conduct researches around the following issues: the intrinsic dimension of complex data is high meanwhile data may be sampled from high curvature manifold; there are a large number of outliers and noise; part of the data contains label information. The project will use the methods including muti-manifold learning method with removing outliers, manifold tangent space representation with minimizing noise, semi-supervised learning, adaptive parameter selection, and so on, and will propose a robust nonlinear dimensionality reduction algorithm based on semi-supervised manifold learning. The difficulties and the key issues of this project are numerically stable measure of manifold curvature and semi-supervised topological constraints isometric embedding algorithm. The successful implementation of the project will enable nonlinear dimensionality reduction algorithm better deal with complex data sets, so that the theoretical researches of nonlinear dimensionality reduction are more in line with actual applications.
复杂数据集是一种未经过数据预处理的原始数据集。稳健且实用的降维方法的缺乏,已成为严重制约从复杂数据中提取有用信息的重要因素,成为机器学习、数据挖掘和模式识别等领域急待解决的关键问题。本项目以复杂数据集降维所面临的难题为切入点,针对复杂数据集刻画对象特征的指标众多而采样数据可能位于高曲率流形之上,数据集内存在大量的局外点和噪声,部分数据包含标签信息等特殊问题开展研究,使用排除局外点的多流形学习、最小化噪声的流形切空间表示、半监督学习、自适应参数选择等方法,研究一种稳健的基于半监督流形学习的非线性降维算法。本项目的难点和关键问题是数值稳定的流形曲率测度的构建和半监督拓扑约束等距嵌入算法的研究。该项目的成功实施将使非线性降维算法可以应对复杂数据可能面临的各种特殊问题,从而使非线性降维的理论研究具有更好的实际意义。
稳健且实用的降维方法的缺乏,已成为严重制约从复杂数据中提取有用信息的重要因素,成为机器学习、数据挖掘和模式识别等领域急待解决的关键问题。本项目对现有的基于流形学习的降维方法作了深层次的理论研究,提出流形学习的“三段论”:有限开覆盖、局部同胚和排列。提出基于多流形的高曲率流形学习方法,提出一种新的渐进式的排列方法避免了全局排列方法中大型稀疏矩阵的特征值问题,而且每次排列都保证是误差最小的排列,减轻误差的积累和传播。提出基于半监督的全局保持局部坐标排列算法,在标志点的选取和分片的构建中加入标签数据信息,然后基于标志点排列的方法排列局部坐标,算法有效利用了标签数据,并保持了流形的局部和全局结构,另外算法近似得到一个输入高维空间和输出低维空间之间可解析表达的非线性可逆映射,用于处理新来测试数据。提出的算法在手写数字识别、人脸姿态识别等领域应用效果理想。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于分形维数和支持向量机的串联电弧故障诊断方法
基于和合思想探究调和气血法调控VEGF-Ang-Notch通路及miRNA干预COPD肺血管重构机制
面向高维复杂数据的流形学习算法与应用研究
面向高维小样本数据的流形学习算法及应用研究
面向数据降维的深度核机器算法研究
基于成对约束的半监督谱流形非线性降维算法及应用研究