This project aims at visual object detection in images and videos, which is a challenging problem in the computer vision community. We plan to study on the new approaches for feature extraction and object detection by utilizing deep neural networks, which is now a powerful technique and tool in the field. More specifically, we are going to exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. In this way, high-level semantic feature maps at all scales can be efficiently obtained. Moreover, we will introduce a visual attention model into deep neural networks so that a top-down action driven detection mechanism can be achieved. In this way, the context information surrounding a target object is also taken into consideration in order to achieve more accurate detections. The research outcomes are expected to promote the development of object detection and image content understanding, and could be applied for image and video content retrieval, intelligent video surveillance and other fields, providing necessary research foundation for efficient information retrieval and supervision in the era of big data and Internet.
本项目针对图像和视频中的视觉目标检测与识别这一计算机视觉领域的难点问题,通过借鉴深度神经网络这一有力技术和工具来研究新的特征提取方法和目标检测方法,旨在通过探索深度卷积网络内在的多尺度和金字塔层级特性,实现高效的深度网络中特征金字塔的构建,并使得提取出的特征包含更丰富的高层语义信息,同时通过引入视觉注意力模型实现以动作驱动的自顶向下检测方式,充分利用目标周围的上下文信息以达到更加精确的检测。研究成果预期将在理论上推进视觉目标检测识别乃至图像内容理解领域的进一步发展,并将能有效应用于图像、视频内容检索和智能安全监控等领域,为当前大数据和互联网背景下的高效信息检索以及监管提供必要的研究基础。
本项目针对图像和视频中的视觉目标检测与识别这一计算机视觉领域的难点问题,通过借鉴深度神经网络这一有力技术和工具来研究新的特征提取方法和目标检测方法,通过探索深度卷积网络内在的多尺度和金字塔层级特性,以及不同注意力机制的作用和影响,提出了一系列基于注意力机制增强特征学习、基于语义增强的多尺度特征金字塔网络、基于目标模式复杂度与网络结构参数量动态匹配机制等的目标检测方法,充分利用了目标本身语义和模式信息以及其周围的上下文信息,有效提升了目标检测网络(特别是在多尺度、遮挡等困难条件下)的检测性能,并在国际公开标准目标检测数据集上进行了评测验证。本项目的研究成果在理论上进一步推进了视觉目标检测识别乃至图像内容理解领域的发展,也在例如智能安防监控、视频内容检索、车辆自动驾驶、智能交通等众多领域中具有较好的实际应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于注意力深度网络的SAR目标检测识别一体化方法
基于深度信息面向主动视觉任务的视觉目标遮挡检测与规避方法研究
基于视觉注意力与手势动作特征建模的自然交互界面优化方法研究
基于场景分析和视觉注意力的目标搜索