The tremendous explosion of large-scale heterogeneous multi-modal data has significantly increased the demand of more effective cross-media retrieval. Regarding the cross-media retrieval problem on large-scale image-text multi-modal data, existing approaches generally focus on leveraging the available class label information to facilitate the performance of the retrieval model. However, these methods ignore the fact that the quality of the class label information may affect the performance of the retrieval model. . Under such a doomed context, we explore the problem of how to learn effective cross-media retrieval model from existing partially labeled image-text datasets. We will carry out the research from the following three aspects: (1) label completion for partially labeled multimodal data; (2) cross-media retrieval model learning with class label information; (3) modeling nonlinear structure underlying different modalities of data. The above three research points mutually reinforce each other, and they are able to provide both a theoretical basis and practical verification for achieving effective cross-media retrieval model.
大规模的异构多模态媒体数据的爆发式增长,对更高效的跨媒体检索技术提出了迫切的需求。在针对大规模“图像-文本”多模态数据的跨媒体检索问题中,现有的方法通常试图利用已有的类别标签信息提高跨媒体检索模型的性能,却忽视了这些标签信息本身的质量对检索模型性能的影响。. 在此背景下,本课题针对现有的大规模图像文本数据集只包含部分类别标签的局限,探索如何学习出高效的跨媒体检索模型。本项目将从三个方面展开研究:(1)部分标记的多模态数据的标签补全研究;(2)利用标签信息的跨媒体检索模型设计;(3)挖掘各模态数据内部隐含非线性结构。以上三个研究点互为耦合且逐渐增强,为实现高效的跨媒体检索系统提供理论基础支持和实际应用验证。
大规模的异构多模态媒体数据的爆发式增长,对更高效的跨媒体检索技术提出了迫切的需求。在针对大规模“图像-文本”多模态数据的跨媒体检索问题中,现有的方法通常试图利用已有的类别标签信息提高跨媒体检索模型的性能,却忽视了这些标签信息本身的质量对检索模型性能的影响。在此背景下,本项目针对现有的大规模图像文本数据集只包含部分类别标签的局限,探索如何学习出高效的跨媒体检索模型。本项目从三个方面展开研究:(1)部分标记的多模态数据的标签补全研究;(2)利用标签信息的跨媒体检索模型设计;(3)挖掘各模态数据内部隐含非线性结构。并针对三个内容分别设计了(1)基于跨模态数据的协同约束的标签补全算法;(2)基于多模态数据协同约束的共同子空间学习算法和(3)多模态数据的非线性嵌入策略。 对不完备数据条件下的跨媒体检索的数据补全,子空间学习,数据特征融合等方面技术提供了理论和实践探索。基于上述研究成果,发表了17篇学术论文,其中包括SCI期刊论文7篇(中科院JCR分区1区论文1篇,2区论文3篇),国际会议论文10篇(CCF-A类4篇,CCF-B类4篇)。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于非线性接触刚度的铰接/锁紧结构动力学建模方法
面向大数据跨媒体检索的多模态哈希学习方法研究
面向检索的大规模多模态数据表示方法研究
面向大规模多模态媒体信息检索关键技术研究
面向大规模多媒体检索的异构多模态融合技术研究