With the emergence of numerous multimedia data, the cross-modal retrieval has become a new demand for information retrieval. The core problem in cross-modal retrieval is the similarity measurement and correlation modeling between different modals. The existing methods mainly consider the correlation relationship of corresponding samples and neglect high-level semantic structure in different modals. In this project, we focus on the structural relationship modeling of cross-modal retrieval. Based on the fact that the low-level features are extremely different and the high-level semantic features are related, we completely analyze the semantic class structure and the local geometric structure in the modal. After that, we study the cross-modal retrieval with structure constraints by considering unsupervised, supervised and semi-supervised cases, through local structure preservation, structure transferring, semantic structure constraints with different level. The aim of this project is to remedy the following three problems: the internal structure is destroyed, the inter-modal structure is not correlated and the structures of different modals are not matched. Finally, the samples similarity between different modals can be computed effectively. The research of this project has heavily academic significance on the promotion of the cross fusion between cross-modal learning, hash learning, measurement learning and deep learning. Meanwhile, it provides critically theoretical support and technical guarantee for the practical application of cross-modal retrieval technology, which satisfies the demand of diversification of information retrieval methods and has wide application.
随着大量多媒体数据的出现,跨模态检索成为信息检索的新需求。跨模态检索的核心问题是模态间的相似性度量和模态间的关联建模。 现有方法主要基于模态间样本层的对应关系进行关联建模,缺乏语义层的结构关联。本课题以跨模态检索中结构关联建模为中心,针对不同模态数据的底层特征异构,高层语义相关的特点,深入分析模态内局部结构和模态间的语义类结构,通过模态内局部结构保持、模态间结构传递、多层次语义结构约束等方式建立模态间的关联,研究无监督、监督和半监督情形下基于结构约束的跨模态检索新方法,解决模态内结构被破坏,模态间结构关联不足和结构不匹配等问题,实现不同模态间的相似性度量和跨模态检索。本课题的研究将有效促进跨模态学习、哈希学习、测度学习以及深度学习等领域的交叉融合,具有重要的学术研究意义。同时为跨模态检索技术的实际应用提供关键理论支撑和核心技术保障,满足人们对信息检索方式多样化的需求,具有广泛的应用价值。
现有跨模态检索方法主要基于模态间样本层的对应关系进行关联建模, 缺乏语义层的结构关联。为此,本项目以跨模态检索中结构关联建模为中心,通过模态内局部结构保持、模态间结构传递、多层次语义结构约束等方式建立模态间的结构关联。根据项目研究计划,开展了一系列的工作,取得的主要研究成果有: (1) 提出了基于语义相似性约束的对抗跨模态检索方法。该方法同时考虑了模态内的语义一致性和模态间的语义一致性,通过构建目标函数使得不同模态在低维空间的表达同类最紧凑、异类类间距离最大化,从而提高判别性。另一方面,通过生成对抗学习,减小同语义类样本不同模态间的差异。在wikipedia, NUSWIDE-10k等多个数据集及不同跨模态任务下的实验结果表明提出的方法是有效的。(2) 提出了基于表征解耦的对抗跨模态检索方法。该方法在生成对抗网络框架下将图像和文本模态的原始表征分别分离为公共表征和私有表征。具体地,在迭代训练过程中不断减小公共表征和各模态私有表征的相关性,实现表征解耦;通过交叉重构原始表征,促进不同模态之间信息交互;采用语义标签监督公共表征学习增强公共表征能具有较强的判别性。在WikiPedia, NUSWIDE-10k等数据集上的不同类型跨模态任务结果证实了该方法的有效性。(3) 提出了基于语义对齐的跨模态哈希检索方法。 不同于已有方法把不同模态的特征利用矩阵分解为一个公共的潜在语义空间,该方法通过学习特定模态的语义表征,利用每种模态的内在信息,在语义空间中进行对齐。两个数据集上的多角度实验结果证实了该方法的有效性。(4) 提出了面向胸部X-ray图像与诊断报告的跨模态哈希检索。 该方法将局部特征与全局特征融合,通过LSTM网络分层刻画影像细微信息,并利用注意力网络寻找图像中最显著的部分提取局部特征。同时将原始特征作为全局特征,增强融合特征的语义一致性。两个数据集上的多角度实验结果证实了该方法的有效性。 本课题的研究有效促进跨模态学习、哈希学习以及深度学习等领域的交叉融合,具有重要的学术研究意义及在医学影像中的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于深度学习的跨模态检索方法研究
基于跨模态深度学习的大规模异质人脸图像检索算法研究
基于局部语义关联及判别分析的跨模态数据检索
基于结构约束的多模态学习理论和方法