Retrieving and tracking the target from videos precisely and efficiently is a hot topic in artificial intelligence. Despite of the recent breakthrough on this topic, most current methods focus on exploiting visual features of the target, leaving much room for improvement. Compared with visual features, text and language information can better describe user intention and the characteristic of the target, and consequently help to tackle the related visual tasks. Therefore, in this project, we propose to exploit the language information to optimize current visual models, and realize language computing driven methods for object retrieval and tracking. Specifically, 1) we will propose a cross-modal representation learning method for both language and visual information, and provide publicly available datasets for further research; 2) we will propose a multi-modal feature pooling method to achieve language-driven saliency detection; 3) we will propose a metric learning method consisting of co-attention mechanism and a temporal-spatial relationship model, to measure the similarity between language and visual information, so that we can retrieve our target with language information; 4) we will construct an optimal appearance model for robust object tracking, which is based on the semantic and linguistic discriminative areas of our target. This project will provide the research communities of object retrieval and tracking with novel theories, methods and datasets, and its outcomes can also be validated and utilized in various applications such as intelligent surveillance, robots and augmented reality.
快速精准地在视频中检索和跟踪目标是人工智能的热点问题。目前相关研究已取得长足发展,但其大多仅利用目标的视觉特征,在鲁棒性和精确性等方面仍有较大局限性。相较视觉特征而言,文本语言能自然便捷地描述用户意图及目标特性,可用于辅助机器高效完成相关视觉任务。因此,本项目将研究以文本语言信息优化现有视觉模型,实现语言计算驱动的视觉目标检索与跟踪,具体内容包括:1)研究语言与视觉信息的跨模态联合表达学习方法,构建研究所需的公开数据集;2)研究利用多模态池化等特征融合方法,实现语言引导的目标显著区域检测;3)研究结合协注意力机制和时空关联表达的语言和视觉相似性度量方法,构建语言驱动的目标检索框架;4)研究融入语义判别性区域优化的目标外观建模方法,利用语言辅助实现目标的稳定精确跟踪。本项目的成果可为视觉目标检索和跟踪的研究提供新的理论、方法及数据支持,并在智能监控、机器人和增强现实等应用中验证推广。
视觉和语言是人类接收、处理和表达知识的重要形式和手段,相较视觉特征而言,文本语言能自然便捷地描述用户意图及目标特性,可用于辅助完成相关视觉任务。本项目旨在有效兼顾这两种模态,构建起它们的关联性,利用语言文本信息计算优化现有视觉模型,并实现语言计算驱动的视觉目标检索和跟踪。本项目研究了语言视觉联合表达学习模型,在人物搜索跟踪、图像识别、图像描述生成等任务上形成了有针对性的解决方案,引入语言计算、语义感知、知识嵌入、图表示等模块与视觉表达学习模型结合形成新的方法框架,有效地利用语言文本信息提升相应模型的性能;在目标搜索跟踪、多标签图像识别、少样本识别等任务里提出了文本引导的视觉目标区域映射模块,并嵌入到对应的新框架中,挖掘判别性语义表征;提出了简单有效的双Transformer模型,结合难样本感知的跨模态对比学习优化算法,形成语言驱动的视觉目标检索新方法;提出了基于语言与视觉相似性度量结合时域动态一致性约束的视频目标检索跟踪方法;对与项目密切相关的跨模态融合、注意力机制、图传播学习等进行了深入研究,针对特定任务提出了相应的创新方法。本项目取得了一定的成果,所提出的方法和技术可为相关领域的研究和应用提供参考和借鉴。本项目当前已发表学术论文23篇,包括SCI期刊论文9篇(其中T-PAMI、T-MM等中科院一区期刊论文5篇)、EI会议论文14篇(其中CVPR、ICCV、AAAI、ACMMM等顶级会议论文9篇),有2篇成为ESI高被引论文;申请了中国发明专利6项,已获授权1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于二维材料的自旋-轨道矩研究进展
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
雾天视频中目标跟踪的视觉计算模型与方法研究
昆虫视觉辨识及跟踪目标的机理与模拟
突变目标的视觉跟踪算法研究
基于深度测度学习的视觉目标跟踪