With the emergence of the multi-view data, and the limitations of the single-view data, fusion analysis of multi-view high-dimensional data became a challenging problem in many fields including computer science and bioinformatics. Most of the related research focused only on double-view learning by minimizing the disagreement between two views with lack of enough theoretical analysis. However, most problems in multi-view data analysis have not been explored yet. This project aims to study the methods and theories of high-dimensional multi-view data, including the coordination and uniform dimension reduction for homogeneous data, graph constraint low-rank approximation for heterogeneous data, sparse representation, co-clustering and co-classification, and low-rank tensor approximation and data fusion for multi-view data with missing values. The project consists of mathematical modeling, methods design, theoretical analysis, numerical experiments, complexity and stability analysis and also applications in related fields such as bioinformatics. It is a necessary and novel exploring on this research field. The research results on the fusion analysis of multi-view high-dimensional data will be important and helpful for many application fields such as computer science and bioinformatics, and will enhance the theoretical development in the field of scientific computing.
单视野数据的局限性,以及多视野数据的不断涌现,使得对多视野高维复杂数据的融合分析成为近年来在计算机和生物信息等许多领域需要迫切解决的挑战性问题。多视野数据指单一对象拥有多种刻画方式。现有的相关研究多是双视野数据融合,且缺乏深入的理论分析。多视野数据融合中的许多问题尚处于探索阶段。本项目拟研究多视野高维复杂数据融合的方法和理论,内容包括单视野数据的稳定性理论和特点分析,同型多视野数据的协同和一致性降维, 异质多视野数据的多重图约束线性低秩逼近, 协同稀疏表达、一致性聚类和分类,低秩张量逼近和数据缺损下的多源数据融合等。该项目涉及数学建模、方法设计、基础理论、数值算法,算法稳定性和复杂性分析等,以及各领域中可能的应用。这是该研究领域必要的和有创行新的探索,其多视野数据融合分析方法的研究成果无论对于数学还是计算科学、生物信息学都有重要的理论和实践意义,也将会推动高性能科学计算的理论发展。
复杂数据的分析建模及其计算是实际应用中非常困难的课题,尤其是对大数据而言。目前绝大多数数据分析方法都只用于单源(单视角)数据。其有效性、可靠性和说明性非常依赖于数据结构与质量。但实际应用中的绝大多数据,特别是极为复杂的大数据,通常不具备比较好的数据质量与结构。多源或多视角数据分析意图借助数据的多源或角度的互补性,提升分析的可靠性与精准性。然而,多源数据之间的不协调性或一定程度上的矛盾性,使得多源数据面临许多困难和挑战性的问题。现有的多视角学习方法多是多局限于同一个单视角方法在各个单视角模型的线性性融合或差异性约束等,方法过于简单,效果不理想,原理性比较缺乏。. 本项目拟研究多源多视角高维复杂数据的融合分析方法和理论,致力于比较深层次的开创性研究。意图从数据的视角扭曲刻画建模入手,从真实信息挖掘恢复、稀疏遴选与多源协同化、多源缺损信息迁移、多源干扰压制与数据净化等这些深刻方面,研究多视角学习或多源数据融合的方法,提出具有针对性的多源多视角数据融合的数学模型、理论基础、解决方案,以及大规模下的算法实现,以及实际问题中的应用。在一定程度上解决目前方法的局限性,提升数据数据分析的准确性与应用的有效性。. 在项目实施期间,我们取得了八个方面的阶段性研究成果。我们提出了一个刻画各源数据的非线性扭曲模型,刻画了视角扭曲数据与潜在真实表示之间的关联性。据此,我们提出了两种多源一致性降维模型:一致多维尺度分析(UMDS)模型及其kernel形式,以及一致性赋类(UCA)模型。进而将这两种优化模型问题统一转化为一个非线性特征值问题,并解决了其快速求解的计算问题以及迭代收敛问题。为了降低多源数据的非协调性,我们采用多源邻域联合稀疏化表示,提出了多源一致稀疏邻域选取方法,并据此提出了一个有效的多源多流形聚类方法,同时也将其用于多源数据的协同化,可以大大提升其他多视角学习方法的聚类精度。对于大规模数据缺损下的协同过滤问题,我们提出了非完全的嵌入迁移方法,利用异源非完全辅助数据改善协同过滤方法的推荐精度。在生物应用方面,我们提出了多视角下物质相互作用分析方法。与其他方法相比,该方法在物质相互作用的识别估计上更加精准。我们还提出了一个消除复杂数据多源干扰因素的方法,通过干扰因数的过滤或抑制,提高基因样本分类的准确性。我们将该方法应用于肿瘤诊断,以及拟芥南表现型的分
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
高维复杂结构数据降维
高维数据保真降维方法研究
数据缺失时高维数据降维分析的方法、理论与应用
高维稀疏矩阵降维方法的理论研究与应用