This project systematically studies sparse representation based manifold learning methods for analyzing complex data including large-scale, high-dimensional, nonlinear, and noisy data as well as their applications to the protein-protein interaction data. Firstly, an efficient non-negative sparse neighborhood graph model based on generalized correlation is devised to overcome the drawbacks of KNN or ∈-ball graph based classical manifold learning methods, such as difficulties in tuning graph neighborhood size and sensitivity to noise. According to this graph, a minimum-relative-entropy based intrinsic dimensionality estimation method for data manifold is developed. Secondly, we propose a novel sparse manifold learning method which seeks to find a low-dimensional manifold embedded in the ambient space by preserving locally and globally geometric structure, meanwhile adopting minimum set cover and spectral regression techniques to make the proposed method suitable for large-scale complex data. Deriving from the proposed method, we further develop a robust large-scale sparse manifold embedding method to assess the reliability of protein-protein interactions and predict new ones which can be considered as one novel promising solution for detecting both false positive and false negative interactions in protein interaction networks. The implementation of this project will not only promote the basic theory of machine learning research, but also generalize its application in the field of bioinformatics.
本项目主要针对大规模、高维数、非线性、噪声污染等复杂性数据,系统研究基于稀疏表示的流形学习方法,及其在蛋白质相互作用数据中的应用。首先,设计一种基于广义相关的非负稀疏表示近邻图构建模型,有效解决基于K-近邻或∈-球近邻准则构图的流形学习方法对于数据噪声敏感和邻域尺度参数选择难的问题。在此基础上,提出一种基于最小相关熵的数据流形本征维数估计方法。接着,设计一种基于局部与全局联合保持嵌入的稀疏流形学习方法,并针对大规模复杂数据,构建基于最小子集覆盖和谱回归混合策略的高效求解方案。最后,提出一种鲁棒的基于大规模稀疏流形嵌入的蛋白质相互作用数据去噪方法,为检测大规模蛋白质相互作用网络中的假阳性与假阴性噪声问题提供一条新的解决途径。本项目的开展既能促进机器学习的基础理论研究,又能推动其在生物信息学领域的应用。
本项目主要针对大规模、高维数、非线性、噪声污染等复杂性数据,系统研究了基于稀疏表示的流形学习方法,及其在蛋白质相互作用数据集、人脸数据集、植物叶片数据集和通信辐射源数据集上的应用。首先,研究了基于稀疏表示的近邻图构建模型,有效解决了基于K-近邻或 -球近邻准则构图的流形学习方法对于数据噪声敏感和邻域尺度参数选择难的问题。在此基础上,研究了基于测地最小张成树的数据流形本征维数估计方法。接着,设计了基于局部与全局联合保持嵌入的稀疏流形学习方法,并针对大规模复杂数据,构建了基于最小子集覆盖策略的高效求解方案。最后,将本项目的研究成果应用于蛋白质相互作用、人脸、植物叶片和通信辐射源等大规模、高维数、非线性、噪声污染等复杂性数据,提出了一种鲁棒的基于大规模稀疏流形嵌入的蛋白质相互作用数据去噪方法,为检测大规模蛋白质相互作用网络中的假阳性与假阴性噪声问题提供一条新的解决途径;提出了基于稀疏表示和流形学习的人脸识别、植物叶片识别和通信辐射源个体识别方法,为稀疏流形学习方法的实际工程应用奠定了基础。本项目的开展既促进了机器学习的基础理论研究,又推动了稀疏流形学习方法在生物信息学、图像处理和通信信号处理等领域的应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向复杂数据的稀疏相似度学习方法及其应用
面向多标签数据的自步流形学习方法研究
面向复杂数据的哈希学习方法研究
面向高维数据的稀疏非参核学习方法研究