Robust visual tracking in complex scenes is still a challenging task, whose difficulty includes how to design stable feature representation, search strategy and model update scheme. At present, the main research idea is to focus on learning the class difference between the target and its background, but ignores the instance-level difference among the dynamic target itself. Therefore, it is easily interfered with the similar background as the target. This project aims to study modeling visual tracking as a verification task, which designs a triplet loss function that considers both class-level and instance-level differences, guiding the model directly to learn the similarity metrics from the massive video data in an end-to-end manner, thereby reducing the similar background interference. The main research contents of this project include: how to model visual tracking as a verification problem, how to design the related deep fully convolutional networks to extract the instance-level deep discriminative hierarchical features; how to adaptively combine different feature layers to establish an effective target appearance model; how to design a fast search mechanism that combines a global and a local search to enhance the detection ability; how to build a double-model update mechanism that combines a simple and a complex model to solve the model drift problem. The research results of this project will provide new research ideas and methods for visual tracking.
复杂场景下的稳健视觉跟踪仍然是一项极具挑战的任务,其困难在于如何设计可靠的特征表达、搜索策略和模型更新机制。目前主流方法仅关注学习目标与背景的类别差异,而忽视了动态目标自身的示例差异,致使易受与目标相似的背景干扰。为此,本项目将视觉跟踪建模为验证问题,通过设计三元损失函数,同时考虑类别和示例差异,引导从海量视频数据中端到端学习相似性度量,消除与目标相似的背景干扰。主要研究内容包括:如何将视觉跟踪建模为验证问题,设计相关的极深全卷积网络,提取示例级判别力的深度分层特征;如何自适应组织各层深度特征,建立高效的目标表观模型;如何设计全局与局部结合的快速搜索机制,提升发现目标的能力;如何构建简单模型与复杂模型相结合的双模型更新机制,解决模型漂移问题等。本项目的研究成果将为视觉跟踪提供新的研究思路与方法。
复杂场景下的稳健目标跟踪是一项极具挑战的任务,其难点在于如何设计可靠的特征表达、搜索策略和模型更新机制。当前主流方法仅关注学习目标与背景的类别差异,而忽视掉动态目标自身的示例差异,导致易受与目标相似背景物体的干扰。为此,项目组在跟踪模型设计、稳健表观模型设计、快速搜索机制设计、模型更新机制设计等方面进行了深入研究,取得了多项成果,目前已在IEEE Transactions等国外学术期刊和国际知名学术会议上发表高水平学术论文26篇,其中SCI检索16篇。包括IEEE Transactions 6篇,CCF A类顶会7篇。此外, 发表中文核心期刊10篇;申请发明专利2项,授权软件著作权1项;毕业硕士研究生5名,在读15名。基于这些研究成果在行人多目标跟踪、目标跟踪竞赛等方面进行了拓展应用:研发的行人多目标跟踪系统获得2019年之江杯全球人工智能大赛(“行人多目标跟踪”)三等奖;研发的长程目标跟踪系统分别获得了VOT2021、2022长程目标跟踪赛道的第四名和第三名。研究成果“高效视觉目标跟踪理论与方法”获得2020年度CCF自然科学奖二等奖(排名第一)。项目研究成果不仅对提升现有目标跟踪算法的稳定性具有重要意义,而且在智能视频监控、智能交通以及视频检索、人机交互等领域具有广泛的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于图卷积网络的归纳式微博谣言检测新方法
视觉目标跟踪中的深度学习表观建模方法
基于标准对冲的深度视觉目标跟踪方法研究
基于深度测度学习的视觉目标跟踪
基于深度层次特征相似性度量的视觉跟踪方法研究