Mining the latent features of multi-domain data is a widely-focused problem in the field of data mining in recent years. As an effective method to discover the latent features of high-dimensional data, manifold learning has much difficulty in its application to multi-domain data mining. To solve these problems, the project will research on the joint manifold learning method on multi-domain data. Firstly, the collaborative filling algorithms, feature transfer methods and manifold smoothing methods will be introduced to the preprocessing of manifold data to improve the stability of manifold topological structure. Then, the relative theories and methods in numerical algebra will be introduced, and new models and algorithms will be proposed to discover the inner structure of the manifold and the relations between data from diverse domains. Lastly, new eigenvalue algorithm will be introduced to solve the global optimization model of joint manifold learning which can improve the ability of handling large scale data. What's more, the project will conduct research on the application of joint manifold learning, which can improve the technologies of knowledge transfer with multiple cross sources. The successful implementation of the project will make positive impact on the development of manifold learning theories and methods, and provide useful supplement for current transfer learning methods. What's more, the case study can also widen the application of manifold learning on the fields such as the cross-lingual text classification and genome-wide association study.
如何挖掘多领域数据的潜在特征,是近年来数据挖掘领域中备受关注的一个问题。流形学习作为挖掘高维数据潜在特征的有效方法,将其应用于多领域数据挖掘却存在着许多困难。针对这些困难,本项目拟开展面向多领域数据的联合流形学习方法研究。首先,结合协同过滤技术、特征迁移、流形光滑化等方法,对流形数据预处理,增加流形拓扑结构稳定性;其次,引入数值代数中的相关理论和方法,提出新模型和算法挖掘同领域数据的内部结构和跨领域数据的关联性;最后,引入新的特征值求解算法,求解联合流形学习的全局优化模型,提高处理大规模数据的能力。此外,本项目还将开展联合流形学习方法的应用研究,将其应用于迁移学习,改进多源跨领域知识迁移的技术。本项目的成功实施,将对流形学习的理论和方法产生积极的影响,也是对现有迁移学习方法的有益补充。此外,实例研究的开展,也能促进流形学习在跨语言文本分类、全基因组关联性分析等领域的广泛应用。
流形学习作为挖掘高维数据潜在特征的有效方法,难以直接用于挖掘多领域数据的共同潜在特征。本项目从流形数据预处理、面向多领域数据的流形对齐、以及应用角度开展研究。在数据预处理方面,我们针对噪声数据提出了挖掘真正局部几何结构的方法,有效的减少噪声数据的影响;针对缺损数据,我们提出了基于特征子空间迁移的协同过滤算法,利用辅助领域特征帮忙对目标领域的缺损数据进行填充。此外,我们还提出了面向缺损数据的流形学习方法,对传统的LE,LTSA方法进行改进,能有效挖掘缺损数据的低维特征。面向多领域数据,我们提出了基于少量对应点的半监督流形对齐算法,充分利用少量对应点信息挖掘不同流形对应点的关联性,并从理论上验证了所提算法的有效性;提出了基于全局和局部特征匹配的流形对齐算法,能有效挖掘多领域数据的共同潜在特征。从应用方面,我们提出了基于稀疏重构权的错误标注数据检测算法,有效检测错误标注数据,从而提高数据分类的准确率;将度量学习引入流形学习,在新的距离度量方式下构造样本点的局部邻域以及挖掘局部几何结构,推进流形学习在数据分类中的应用。此外,通过在大量实际例子中的实验,改进了流形学习在文本分类、人脸姿态估计、视频对齐等领域的应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
基于多色集合理论的医院异常工作流处理建模
基于腔内级联变频的0.63μm波段多波长激光器
结直肠癌免疫治疗的多模态影像及分子影像评估
长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移
面向多标签数据的自步流形学习方法研究
面向跨领域异构数据的患者相似性学习方法及应用
面向大数据的安全迁移学习方法
面向复杂数据的稀疏流形学习方法研究