With the increasing variety of cameras in the world, massive video data has become the main carrier for the machine to perceive the outside world. Joint video instance segmentation and tracking is an active research topic in machine perception. Due to the wide range of appearance changes caused by motion blur, severe occlusion, and the disappearance of the target from the field of view, how to maintain the identity of the segmented target over time is the main difficulty of joint video object segmentation and tracking. This proposal exploits the advances of deep visual tracking to model the motion trajectory of the segmented target, including 1) improving the generalization ability of the pre-trained deep models for video object detection; 2) target-aware short-time tracking model; 3) spatio-temporal attention scheme for multi-object tracking. Through in-depth research on the above three aspects, we try to balance the interpretability, robustness, computational efficiency and convenience of algorithm design and provide theoretical guidance and algorithmic tools for perception tasks such as autonomous driving, robot vision, and intelligent video surveillance.
随着生活中不断增多的各类摄像头,海量的视频数据成为机器感知外部世界主要的载体。对视频中感兴趣的目标物体进行联合分割与跟踪,是机器感知技术的热点研究问题。由于视频中运动目标广泛存在运动模糊、严重遮挡、目标从视野中消失等情况,如何在时序上保持分割目标的身份一致是视频物体联合分割与跟踪技术的主要难点。本课题研究利用深度视觉跟踪技术对分割目标的运动轨迹进行建模,主要包括:1)提升预训练深度模型的泛化能力进行视频物体检测;2)具有目标感知能力的短时跟踪建模与学习;3)时空关联的多目标运动轨迹建模与学习。通过上述三方面的深入研究,力图兼顾模型的可解释性、鲁棒性、计算效率乃至算法设计的便捷性等各方面,进而为自动驾驶、机器人视觉、智能视频监控等机器感知的实际应用提供理论指导与算法工具。
本课题面向机器感知的真实应用场景,解决了视频物体联合分割与跟踪这一新的视觉感知问题。最终形成了一整套保持分割的实例物体在时序上具有身份一致性的有效解决方案,破解了传统的基于图片预训练的实例分割模型在处理视频数据时的巨大瓶颈,兼顾了模型的可解释性、鲁棒性、计算效率乃至算法设计的便捷性等各方面,进而为自动驾驶、机器人视觉、智能视频监控等机器感知的实际应用提供理论指导与算法工具。本课题启动以来,课题组严格遵守课题的任务要求,按照本课题原定的研究计划开展工作。本课题共发表学术论文20篇,申请国家发明专利3项,培养硕士研究生5名。课题负责人连续两年入选爱思唯尔中国高被引学者,同时入选上海市浦江人才、微软亚洲研究院铸星计划。算法成果部署于达芬奇1951芯片,应用于华为无人驾驶MDC平台,作为多模态目标跟踪的新一代解决方案之一。对照课题任务书设定的考核指标,本课题圆满地完成了课题计划书中规定的结题任务,主要量化指标均高出预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于全模式全聚焦方法的裂纹超声成像定量检测
基于图卷积网络的归纳式微博谣言检测新方法
一种改进的多目标正余弦优化算法
人工智能技术在矿工不安全行为识别中的融合应用
面向工件表面缺陷的无监督域适应方法
基于GluN2B-NMDA受体拮抗作用的四氢吡咯并[2,1-b]喹唑啉类衍生物的设计、合成及活性研究
深度语义感知的视频目标分割与跟踪
面向物体识别的迁移学习理论与方法研究
面向移动设备的显著物体检测与分割方法研究
基于统计模型与运动基的物体解析与视频重构方法