The integration and analysis of multi-modal data has drawn much attention in the pattern recognition and computer vision communities. It is still a challenging and ongoing issue because the data from different modalities have different semantic representation ability. This project makes use of the text-image pairs in web pages as an example of multi-modal data, and focuses on the structure prior behind multi-modal data. We aim to propose new multi-modal learning theory and methods via structure prior. For the multi-modal theory, based on information theoretic learning and implicit regularizers, we study the mathematic formulation of structure prior, and the measurement of correlation between multi-modal data. In particular, we study structured sparsity and low-rank matrix constraints based on implicit regularizers, and develop a half-quadratic framework for both of them. For multi-modal methods, we study the properties of the low-dimensional subspace of original high-dimensional multi-modal data, and analyze the influence of different subspace structures for multi-modal learning. And taking structure constraints as regularization terms, we further study coupled feature selection, coupled hashing and coupled clustering for multi-modal data. Finally, we study the integration and analysis technique for multi-modal data.
多模态数据的跨模态整合与分析是模式识别和计算机视觉的热点研究内容之一。由于不同模态数据的语义表达能力不同,使得数据的跨模态整合与分析极具挑战。本项目以互网络中的图像和文本两个模态为研究对象,以多模态数据中隐含的先验结构信息为切入点,研究基于结构约束的多模态学习理论和方法。 在理论方面,结合信息理论学习和隐含正则化算子,研究多模态数据的结构约束的数学形式,以及多模态数据的相关性度量方式;特别地,研究基于隐含正则化算子的结构化稀疏和矩阵低秩约束,建立统一的半二次优化框架。在方法方面,研究高维多模态数据的低维隐含子空间的性质,分析不同子空间结构对学习结果的影响;把结构约束作为正则项,研究多模态数据的耦合学习问题,包括耦合特征选择、耦合哈希编码和耦合聚类分析,进而研究多模态数据的跨模态整合和分析技术。
多模态数据的跨模态整合与分析是模式识别和计算机视觉的热点研究内容之一。由于不同模态数据的语义表达能力不同,使得数据的跨模态整合与分析极具挑战。自然基金面上项目以多模态数据中隐含的先验结构信息为切入点,研究基于结构约束的多模态学习理论和方法,取得了如下的研究进展:1) 提出了基于隐含正则化算子的结构化稀疏和低秩矩阵恢复,建立基于半二次优化的统一框架;针对不同模态的数据,提出了层次化的结构稀疏表示方法,用于描述数据的先验结构。2) 从距离相近、最大边界和数据低秩三个方面,提出了多模态数据的相关性度量以及多模态数据的耦合相关熵理论,用于同时检测不同模态上的噪声,保留最相关的信息。3) 结合卷积神经网络,研究了高维多模态数据的共同低维隐含子空间的性质,提出了共享、隐含、配对三种结构约束以及离散优化算法;把结构约束作为正则项,提出多模态数据的特征选择、表达学习、哈希编码、聚类分析方法。4) 使用相关度量来评估不同模态分布的相关性,进而结合生成对抗网络,提出了跨模态的数据合成方法和不变特征表达方法,提高了数据合成精度和跨模态匹配的准确度。构建了两个大规模的多模态人脸数据库来验证提出的理论和方法, 部分解决了多模态生物特征识别在特定环境下的鲁棒性问题。. 相关研究成果发表于国际期刊IEEE TNNLS、IEEE TIP、IEEE TIFS、PR和国际会议ICCV、CVPR、AAAI、IJCAI、SIGIR等。目前已发表论文36篇,申请专利9项;其中,代表性第一作者论文在IEEE TNNLS发表1篇,在IEEE TIP发表2篇,在PR发表2篇。在项目执行期间,项目申请人获得国家“优秀青年科学基金”资助、北京市“杰出青年科学基金”资助,2位项目参与人晋升为副高级职称;培养硕士研究生1人,协助培养博士研究生7人;参加CCF A类国际会议交流5次,举办国内外学会交流活动10次。相关应用方法实现技术授权、华为公司联合转化,并应用到唐山火车站、宝丰县看守所和武警中队。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于非线性接触刚度的铰接/锁紧结构动力学建模方法
基于结构约束的跨模态检索方法研究
基于稀疏约束多模态数据整合的肝癌标识物预测方法研究
多模态深度哈希学习理论及其在大规模多模态医学图像检索中的应用研究
多视角学习理论与方法研究