In the era of big visual data, weakly supervised visual understanding has become a hot topic in computer vision since it can significantly reduce human labeling efforts. In this project, we propose a novel weakly supervised visual understanding framework based on visual affinity learning (VAL), and perform comprehensive research on the visual representation, solutions and applications of VAL. Motivated by a second-order representation of visual elements, we propose VAL methods including an efficient, uniform and multi-scale visual affinity representation. To learn visual affinity, we embed visual affinity in deep networks; at the same time, the visual affinity embeddings enhance the power of deep networks. In weakly supervised settings, we propose novel methods for robustly inferring visual affinity based on multi-instance learning, transfer learning and pre-training of big video data. In applications. we propose the first weakly supervised object detection network without hand-crafted object proposal based on visual affinity embeddings, affinity cuts and multi-task learning. The proposed technologies can significantly reduce the human labeling efforts of training object detection networks and semantic segmentation networks in the applications in autonomous driving and video surveillance etc. Generally speaking, the research works speedup the landing of AI applications.
在视觉大数据的时代,由于能够显著的降低数据标记成本,弱监督图像理解成为了计算机视觉中的一个热点问题。本项目提出了一个基于视觉关系学习的弱监督图像理解框架,并在表达、求解和应用三个层面展开了深入研究。在表达层面,从图像视频中视觉元素的二阶表示出发,本项目提出了视觉关系学习方法,及其高效、统一、多尺度表达,并采用深度网络对关系表达进行端到端的优化,增强了深度神经网络的建模能力。在求解层面,采用多示例学习、迁移学习、海量视频数据预训练等手段,本项目解决了弱监督条件下视觉关系作为隐变量难以稳健求解的问题。在应用层面,本项目提出了首个可以自动产生物体候选的端到端弱监督物体检测网络,通过关系嵌入、关系切割、多任务学习等手段,解决了传统弱监督物体检测网络中无法产生物体候选的难题。本项目的研究工作能显著减少自动驾驶、视频监控等环境中的图像理解应用中的人工标记工作量,从而加快人工智能应用的落地速度。
视觉理解是人工智能系统中的一个关键任务,弱监督图像理解符合人类视觉认知规律且能够显著的降低视觉感知系统的落地应用成本,受到了国内外研究者的广泛关注。本项目从视觉关系的建模出发,以自注意力机制为核心,设计了一整套像素-目标-场景的弱监督高效率图像理解框架,具体的研究成果如下:(1)在视觉关系的建模层面,在领域内首创了基于Query表示的实例分割算法(QueryInst,ICCV 2021),提出了首个基于纯序列到序列的目标检测算法(YOLOS,NeurIPS 2021),以及面向高效视频实例分割的交叉学习机制(CrossVIS,ICCV 2021),相关方法在业内公认的权威评测集(MS COCO)上取得了最优的精度和速度权衡,并获得了YouteVIS大规模视频物体分割竞赛全球亚军,对于高质量图像分割和目标检测提供了新的设计范式,为大规模预训练的视觉基础模型的落地应用提供了低成本、灵活的实践框架。(2)在视觉关系的高效推断方面,首创了空间稀疏自注意力机制(CCNet,TPAMI 2020),以及高效率神经网络架构搜索迁移学习机制(FNA++,TPAMI 2021),在自动驾驶语义分割评测集(cityscapes)上取得了业内领先结果,大幅度提升神经网络架构搜索的速度(相对谷歌公司的DPC竞品方法搜索速度提升了1700倍),破解了稠密视觉自注意力计算复杂度高的难题,作为骨干网络在蛋白质解译AI(AlphaFold,Nature封面文章)应用,并落地应用在华为、地平线的AI芯片当中。(3)在弱监督物体检测和分割问题上,发展了一系列深度学习多示例网络(BSN,InfoSci 2019),提出了融入外部知识的类别无关弱监督物体分割方法(BoxCaseg, CVPR 2021),在弱监督实例分割、弱监督物体检测的标准评测集上取得了业内领先结果。项目第一标注论文谷歌引用超过3670次,项目负责人入选国家级人才计划,获CSIG青年科学家奖,吴文俊人工智能优秀青年奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于全模式全聚焦方法的裂纹超声成像定量检测
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
兼容噪声标签的弱监督特征学习与图像理解
基于弱监督学习的图像语义分割研究
基于弱监督和迁移学习的深度文本理解模型学习方法
基于标签分布学习的弱监督图像情感识别研究