With the rapid advancement of multimedia and Internet technologies, there are plenty of social-contributed multimedia documents and resources being shared and freely available for use.In addition to audio-visual data itself, these resources include metadata and social network supplied by web users, concept classifiers contributed by academic researchers, and retrieval results from different commercial search engines. How to leverage these diverse forms of information for more effective means of large-scale multimedia search becomes a timely challenge recently..Grounded on the multi-modality and heterogeneous characteristics of multimedia documents, this project addresses the aformentioned challenge from the perspective of multi-modality fusion. Our proposed solutions are based upon on the studies of two new techniques grounded on graphic modeling: agreement fusion and mutual reinforcement. The former explores the correlation and complementary among heterogeneous modalities by addressing the problem of fast and robust fusion weight derivation for signifying the modality importance in a query dependent manner based on the agreement among modalities. The latter studies the effect of mutual exchange and reinforcement among modalities in a circular-reranking manner. With these techniques, the project further addresses three practical research challenges in multimedia search. These include the search of Web videos by integrating heterogeneous modalities arisen from audio-visual content, user metadata and social network; visual meta search for aggregating results returned from multiple search engines of each indexes a different subset of multimedia data in Internet; and cross-domain retrieval by fusing classifiers learnt from different data sources..The research results of this project will improve the theory and technology for multi-modality data fusion, leading to a better understanding of high-level semantics of multimedia documents, and providing specific and practical solutions for the three important applications in large-scale multimedia search.
随着网络和多媒体技术的快速发展,涌现出大量可以被用来理解多媒体内容的网络资源,如社会化多媒体文档,概念分类器和搜索引擎。如何利用这些异构的多模态资源,发展大规模多媒体检索应用成为当前面临的一个重要挑战。.本项目开展面向大规模多媒体检索的异构多模态融合技术研究,研究内容包括基于图模型的多模态融合理论,以及基于多模态融合的大规模多媒体检索应用。在融合理论方面,研究基于模态一致性的图融合方法和基于循环重排序的图融合方法。重点解决多个模态融合权重的快速鲁棒推导,以及多个模态的相互作用问题。在检索应用方面,开展基于上述多模态融合成果的大规模多媒体检索应用研究。重点解决多特征融合的网络视频检索,多目标元搜索,以及跨域融合的语义概念检索三种应用中多模态信息的有效融合问题。.本项目的研究将完善多模态融合的理论,实现对多媒体内容高层语义的深层次理解,并为多种大规模多媒体检索应用提供核心算法和关键技术。
在本项目的研究过程中,针对计划的两项研究内容(基于图模型的多模态融合理论和基于多模态融合的大规模多媒体检索应用),课题组开展了深入的研究工作。在网络多媒体内容呈爆炸式增长的当今社会,这些工作将有助于提高对多媒体文档高层语义的深层次理解,并丰富大规模多媒体检索的应用。. 首先,在基于图模型的多模态融合理论方面,问题的关键是如何从多种模态中寻找一致性从而对搜索引擎的结果进行重排序以提升检索性能。课题组提出了一种全新的重排序方法—循环重排序法。基于强弱模态的互补性,该法通过增强多种模态间的信息交互能力从而提升多媒体内容的检索性能。该法通过对多模态下的排序得分进行循环多轮的随机游走从而让模态间的信息得以充分交互。不同于以前的工作,该法能够有效的寻找多模态间的一致性。对于循环重排序法中的模态间信息传递的顺序,课题组也进行了广泛的研究。该法在Microsoft Research Asia Multimedia图片数据库和TREC Video Retrieval Evaluation 2007-2008数据上取得了很好的检索效果。除此之外,项目组对多模态融合在人脸和菜谱的检索应用上也取得了很好的进展。. 其次,在基于多模态融合的大规模多媒体检索应用方面,课题组重点研究了跨域学习的语义概念识别。转移在源域标记好的数据或者模型至目标域,也就是跨域学习,是我们在生活中经常遇到的问题。直接应用源域的信息往往效果不尽如人意,尤其是在目标域和源域的数据分布不同或者目标域仅有少量的标记数据的时候。课题组提出了全新的跨域融合的框架—基于子空间学习的半监督域适应法(SDASL)。该法对低维结构跨域不变性和基于目标域非标记数据的直观分布进行了探索。在多个标准数据库上的跨域图片物体识别和视频概念检测竞赛中,该法的有效性均得到了验证。课题组还进一步的利用用户真实点击数据对多目标元搜索问题进行了研究。通过利用搜索引擎记录的用户点击数据挖掘用户的真实搜索意图,并构建模型计算视频之间的相似度,我们可以对大量的网络视频进行标注。. 四年来,本课题共发表学术论文17篇,其中6篇发表于CCF-A类期刊和会议,5篇发表于CCF-B类期刊和会议,如IEEE TIP、IEEE TMM、ACM Multimedia、CVPR、SIGIR、WWW等。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
中国参与全球价值链的环境效应分析
面向大规模多模态媒体信息检索关键技术研究
面向部分标注多模态数据的大规模跨媒体检索技术研究
面向检索的大规模多模态数据表示方法研究
多源异构实时多媒体信息融合传输技术研究