Image/video categorization and retrieval are key problems for realizing the value of big data. In image and video, semantically discriminative features are usually located in different spatial and temporal parts, which are of great significance to precisely model. According to human’s visual attention mechanism, this project aims to study the categorization and retrieval for image and video: (1) To address the problem of visual attention modeling, we propose the spatial-temporal attention driven saliency learning approaches. By part selection with spatial constraints and joint training of spatial-temporal saliency, we can extract the semantically discriminative saliency structures of image and video. (2) To address the problem of image and video categorization, we propose the fine-grained image representation approach by combining vision and text, and the space-motion co-representation learning method for video categorization, which can improve the effectiveness of image and video categorization by mining the fine-grained complementary information between vision and text. (3) To address the problem of image and video retrieval, we propose the visual saliency driven semantic hashing method, which can perform large scale image and video retrieval efficiently yet effectively by the Hamming code mapping and correlation analysis of hash functions. This project aims to mine the latent saliency informations in both spacial and temporal domains to improve the accuracy of visual semantic analysis, and form the efficient models and methods for visual attention driven image and video analysis.
图像视频的分类与检索是实现大数据价值的关键问题。而图像视频中具有语义鉴别力的特征处于空域、时域的不同部分,如何准确建模具有重要意义。本项目借鉴人类视觉注意力机制展开研究:(1) 针对视觉注意力建模问题,研究空域-时域注意力驱动的显著性学习,通过基于空间约束的局部区域选择和空域-时域显著性联合学习,实现了图像视频中具有语义鉴别力的显著性结构提取;(2) 针对图像视频分类问题,研究视觉-文本关联的图像细粒度表示、空间-运动协同表示的视频分类等方法,通过挖掘视觉和文本内容的细粒度互补信息,提高了图像视频分类效果;(3) 针对图像视频检索问题,研究视觉显著性驱动的语义哈希等方法,通过显著性区域的汉明编码映射、哈希函数相关性分析等机制,实现了准确而高效的大规模图像视频检索。本项目致力于挖掘图像视频空域、时域中隐含的显著性信息以提升视觉语义分析的精度,形成视觉注意力驱动的图像视频高效分析的模型与方法。
图像视频分类与检索是计算机视觉与人工智能领域的重要问题,对于实现大数据价值至关重要。然而图像视频的计算机特征表示和人类认知之间存在巨大的“语义鸿沟”,导致难以进行分类与检索。图像视频中具有语义辨识性的特征处于不同的时空区域,因此如何准确地建模这些关键区域,对于分类与检索具有重要意义。针对上述问题,我们根据项目计划书从视觉注意力驱动的显著性学习、基于视觉显著性的图像视频分类和基于视觉显著性的图像视频索引与检索三个方面开展研究,仅使用图像级/视频级标注,实现了视觉语义显著性区域和显著视频帧的自动定位,提高了图像视频分类与检索效果,突破了现有方法对于繁琐的对象级、部件级标注信息的依赖,大大降低了应用成本。构建了国际上首个细粒度跨媒体检索数据集与评测基准PKU FG-XMedia,自2019年10月发布至今,已被康奈尔大学、中国科学院、阿里等近60个机构使用。此外,本项目还根据需要进行了文本到视觉内容生成、视频描述生成和跨媒体推理的扩展研究,突破了文本与视觉内容的语义映射难题,实现了文本与视觉内容的相互生成和联合推理。. 基于上述研究成果发表学术论文63篇,其中IEEE/ACM Trans.和CCF A类论文45篇,包括IJCV、TIP、CVPR等,获MMM 2019最佳论文奖,获发明专利授权16项。在国际权威评测上,本项目组连续3年(2018年-2020年)参加了由美国国家标准技术局(NIST)举办的国际权威评测TRECVID视频语义搜索比赛,均获第一名。研究成果“网络多媒体内容理解关键技术及应用”获2020年中国电子学会科技进步一等奖(本项目负责人为第一完成人),成功应用于中央办公厅、中央政法委、中央宣传部、国家网信办、公安部、人民日报社、新华社等重要单位。项目负责人彭宇新教授在项目执行期间,2019年获国家杰出青年科学基金资助,入选国家万人计划科技创新领军人才、科技部中青年科技创新领军人才,2021年当选中国图象图形学学会会士。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
语言计算驱动的视觉目标检索与跟踪
遥感图像新型视觉词汇表达与快速检索研究
基于视觉特征的图像检索技术研究
基于视觉显著性的图像内容分析与检索