With the rapid development of the multimedia technology and Internet, heterogeneous multimedia data available increase dramatically over the Internet. Meanwhile, the user demand for the retrieval of multimedia data is also becoming more diverse. Compared with traditional retrieval methods of single modality media data, the analysis and processing of multi-modality media data not only better represent the user’s retrieval intention, but also play an important role for the understanding of semantic of multi-modality media data. So that it can better solve the problem of semantic gap. However, the multi-modality media data cannot be efficiently processed by using traditional multimedia retrieval methods, because of the complexity and the heterogeneity among different low-level features. Consequently, in this project, we focus on the problems of retrieval of massive multi-modality media information. We concentrate on the key techniques of unified representation model of multi-modality media data, similarity measure among multi-modality media data, large-scale multi-modality media data index, large-scale multi-modality media data query processing and optimization. The prototype system on large-scale multi-modality media data for query processing and retrieval will be designed and implemented in order to verify the correctness and effectiveness of the related research results. The research achievements on this project will offer powerful theoretical supports and solutions for the retrieval applications of the multi-modality media information, which have important theoretical research significance and practical application value.
随着多媒体技术和互联网的快速发展,不同模态的多媒体数据随之急剧增长,同时用户对于多媒体数据的检索需求也变得更加多样化。对比传统的单一模态媒体数据的检索方式,通过对不同模态的媒体数据进行分析和处理,不仅能够更好地表达用户的检索意图,而且对于多模态媒体数据的语义理解也起到了重要的作用。然而,由于多媒体对象在低层可视化特征上存在异构性和复杂性,使得传统的多媒体检索方法不能适用于多模态媒体数据。因此,本项目围绕大规模多模态媒体信息检索领域中面临的问题,重点研究多模态媒体对象的统一表达模型、多模态媒体对象之间的相似性度量、多模态媒体数据的索引技术以及多模态媒体数据的查询处理与优化技术。同时,设计并实现一个面向大规模多模态媒体数据检索的原型系统,用来验证研究成果的正确性和有效性。研究成果将为多模态媒体信息检索应用提供有力的理论支持和解决方案,具有重要的理论研究意义和实际应用价值。
随着多媒体技术和Web技术的飞速发展,海量的图像、文本、音频、视频等多媒体数据呈指数级快速增长。用户对于不同模态的异构媒体数据的检索需求也变得更加多样化。因此,如何在多模态媒体大数据集上高效地、准确地返回满足用户查询需求的结果成为多媒体信息检索领域中面临的重点问题。本项目针对视频媒体对象的不确定语义表达问题,提出了一种基于多信息融合的方法,其中包括推理和融合两个阶段。在推理阶段,充分利用语义概念之间的上下文关联信息和视频镜头之间的时间关联信息,选出对应于用户查询最相关的候选概念集。在融合阶段,通过计算候选概念的推断概率,使其与概念检测器的结果进行融合,以达到对视频镜头中的语义概念进行修正的目的。通过大量的实验表明,提出的方法能够有效解决视频镜头中不确定的语义表达问题,同时改善了语义视频检索的准确性。针对大规模的跨媒体检索,首先利用多模态媒体对象之间的语义关联来建模一个多模态语义关系图。其次将多模态语义关系图中的所有媒体对象映射到一个同构的语义空间中。最后,通过分析多模态媒体对象的分布特性,提出了一种有效的索引机制,以此来管理语义空间中的媒体对象,同时改善跨媒体检索的性能。通过在大规模的真实跨媒体数据集上的实验表明,提出的方法能极大地改善跨媒体检索的有效性和准确性。针对社交图像检索,首先,通过利用社交网络中不同模态的信息来构建一个社交关系图。其次,当用户给定查询关键字,在构建的社交关系图上执行一种有效的查询关键字算法,同时基于相关分数得到候选结果。最后提出了一种对候选结果的修正策略,首先将社交关系图中的图像与返回的候选结果表达为区域连接图,再将这些区域连接图合并为闭包树,通过对比候选结果与闭包树之间的相似度以达到修正结果的目的。通过在真实数据集上的实验表明了提出方法的有效性和准确性。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向大规模多媒体检索的异构多模态融合技术研究
面向部分标注多模态数据的大规模跨媒体检索技术研究
面向多媒体信息检索的语音处理关键技术研究
面向大规模医学图像及诊断报告的跨模态检索关键技术研究