There are a large number of celebrity videos which receive widespread attention in video sharing websites. However, since the user generated name tags are provided at the whole video level rather than segment or shot level, and are proved to be incomplete and imprecise in many cases, celebrities appearing in web videos are not well annotated. How to develop effective means for large-scale celebrity annotation becomes a timely challenging recently. .Grounded on the related and complementary nature among visual feature, social features and external web resources given a celebrity video, this project aims for the unsupervised and scalable annotation of names in web video celebrity domain from the multi-modality fusion perspective. To this end, we plan to propose a general framework for celebrity annotation in web videos by tagging their faces. Our research will mainly focus on mining social features and external web resources closely related to a specific celebrity video, fusing these features and resources with facial visual feature, as well as developing a multi-modality approach for accurate and scalable annotaiton in web video celebrity domain. Moreover, this project plans to release a large-scale web video celebrity dataset containing thousands of celebrity names and millions of faces detected from web videos, and develop a prototype system for illustrating the performance of web video celebrity annotation. The research results of this project will enrich the theory and applications of web video annotation, and provide practical algorithms and technologies for effective celebrity annotation in web video domain.
包含名人的视频在视频分享网站上受到广泛的关注。然而,由于网络用户提供的人名标签都出现在整个视频层次,且受到人名缺失和错误标注的影响,视频中的名人并没有得到有效的标注。在这种背景下,开展针对大规模网络视频的名人标注研究成为一个充满意义的科学问题。 .本项目将从多模态融合的角度出发,开展无监督和可扩展的大规模网络视频名人标注技术研究。旨在通过挖掘名人视频视觉特征、社会特征和外部网络资源之间的相关性和互补性,提出一个基于人脸标注的网络视频名人标注框架,并对该框架下的关键科学问题展开深入探讨:解决相关社会特征和外部网络资源的有效挖掘问题,以及它们和人脸视觉特征的有效融合问题,探索高精度可扩展的网络视频名人人脸标注方法。此外,本项目还将构建并发布一个大规模网络视频名人及人脸数据库,并开发针对网络视频名人标注的原型系统。本项目研究成果将丰富视频标注的理论和应用,为网络视频名人标注提供核心算法和关键技术。
网络和多媒体技术的快速发展使得越来越多的视频出现在互联网上。名人是这些网络视频最受关注的主题之一。然而,由于网络用户提供的人名标签都出现在整个视频层次,且受到人名缺失和错误标注的影响,视频中的名人并没有得到有效的标注。人们并不能通过这些标签快速找到视频中包含特定名人的片段。在这种背景下,开展针对大规模网络视频的名人标注研究成为一个充满意义的科学问题。 .本项目从多模态融合的角度出发,对无监督和可扩展的大规模网络视频名人标注涉及的各个研究点展开深入研究。主要研究内容包括:1)大规模网络视频名人及人脸数据库的构造和分析:构造了拥有75073个网络视频,总时长超过4000小时的大规模网络视频名人及人脸数据库WebV-Cele。通过统计分析、标注和开展多组基准实验,明确了大规模网络视频名人标注研究的挑战和机遇;2)提出基于图像搜索和匹配的网络视频名人标注方法:该方法首先用视频周边文本中的人名作为查询,通过图像搜索引擎收集该人物的典型网络图像,然后计算视频中人脸与所收集网络人物图像的相似度,基于比对结果实现对视频中人物的标注。该方法具有无监督和扩展性好的特点;3)交互式网络视频名人标注方法与系统:研究了多线索融合的网络视频名人交互式标注方法与系统,通过挖掘和显示多种与标注相关的线索,更好的辅助人工标注。真实网络视频上的名人标注实验表明,该方法可以显著提高网络视频中名人标注的效率;4)大规模网络视频索引、理解和超链接:基于标签的多属性分析和挖掘,提出了一种热门网络视频与网络上关于该视频相关报道的自动超链接的方法。研究了基于二进制编码的大规模网络视频索引和搜索方法,提高了大规模视觉搜索的精度和效率。基于深度学习,研究了视频字幕的自动检测和识别问题,提出了多种解决方案。.本项目的研究产生了多篇高水平论文和专利,研究成果丰富了视频标注的理论和应用,为网络视频名人标注提供核心算法和关键技术。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
黄河流域水资源利用时空演变特征及驱动要素
基于多模态信息特征融合的犯罪预测算法研究
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于多模态特征语义融合的网络不良视频识别
基于多模态融合的互联网图像中人物行为标注研究
基于多模态融合机制的视频语义表征方法研究
面向部分标注多模态数据的大规模跨媒体检索技术研究