Due to the popularity of portable image acquisition devices and the rapid development of network technology, the volumes of image data over the Internet increase explosively, in which the majorities are natural scene images. The objects contained in those image scenes are the keys to understand the semantic content of the images. Thus, it becomes an urgent problem to handle those natural scene images efficiently, extracting visual information, e.g. objects over large range of category. Compared to the general form of multi-class classification problem, the multi-class object detection problem in natural scene images are different in three-fold: (1) objects of different categories in the natural scene images may have similar local visual appearance, especially between the object instances with semantic similar of category; (2) objects of different categories are not isolated in the natural scene captured by the images. There exist strong context correlation among different categories, even between the object category and the content of the scene background; (3) In large-scale image collection, different categories of objects significant differences in frequency of occurrence. Aim to the above phenomenon and problems, we focus on the following three aspects. Firstly, we propose a category collection forecast method, taking the scene captured by the given image as input to estimate the categories it would contain. Secondly, we develop a unified hierarchical model for objects of multiple categories, designing a model training algorithm to solve the huge visual difference and the problem of extremely imbalance among between classes. Thirdly, we present a localization strategy based on contextual information to generate the proposal window collection of different object categories, sampling with a higher confidential level on the region which are more likely containing an object.
随着智能手机等便携图像采集设备的普及和网络技术的蓬勃发展,互联网中图像规模急剧膨胀,其中绝大多数为自然场景图像。而对象对理解场景内容至关重要。如何高效处理这些图像数据,提取多类对象信息成为一个亟待解决的问题。与一般的多类问题相比,自然场景中的多类对象检测具有一些特殊性:(1)不同类别对象可能具有相似的外观,在语义相似的类别之间更为明显;(2)场景中的对象往往并不孤立出现,不同对象类别以及场景之间具有很强的上下文相关性;(3)数据集合中不同类别对象出现频率差异巨大。针对上述特点,本课题从三个方面展开研究:一是提出基于场景上下文的对象类别集合预测方法,预测给定场景可能包含的类别集合以及对象可能出现的位置;二是构建层次化的多类对象外观模型,依据类别上下文关系设计模型训练方法,克服对象外观差异和样本不均衡问题;三是设计基于上下文的对象定位算法,以较高的概率在可能包含对象的区域采样备选对象窗口集合。
随着智能手机等便携图像采集设备的普及和网络技术的蓬勃发展,互联网中图像规模急剧膨胀,其中绝大多数为自然场景图像。而对象对理解场景内容至关重要。如何高效处理这些图像数据,提取多类对象信息成为一个亟待解决的问题。与一般的多类问题相比,自然场景中的多类对象检测具有一些特殊性:(1)不同类别对象可能具有相似的外观,在语义相似的类别之间更为明显;(2)场景中的对象往往并不孤立出现,不同对象类别以及场景之间具有很强的上下文相关性;(3)数据集合中不同类别对象出现频率差异巨大。针对上述特点,本课题从三个方面展开研究:一是提出基于场景上下文的对象类别集合预测方法,预测给定场景可能包含的类别集合以及对象可能出现的位置;二是构建层次化的多类对象外观模型,依据类别上下文关系设计模型训练方法,克服对象外观差异和样本不均衡问题;三是设计基于上下文的对象定位算法,以较高的概率在可能包含对象的区域采样备选对象窗口集合。课题组根据对相关领域的跟踪和研究发现,课题拟采用的利用图像中的上下文信息和基于多任务学习方法的对象类别与位置联合预测网络已经成为图像场景多类复杂外观对象检测的标准方法。基于研究现状以及本课题组的实际工作,课题组调整了主要研究内容进行。按照研究的目标问题,本课题实际的研究工作进展可以分为两大类:(1)深度学习基础理论和一般机器学习模型训练的相关研究;(2)图像场景对象检测相关应用研究。在深度学习基础理论研究方面,发表学术论文3篇,其中SCI论文1篇,撰写并提交专利申请1份(尚未取得授权)。在图像场景对象检测相关应用研究方面,已录用论文20余篇,包括4个方面:(1)图像/视频场景分类方法研究;(2)视频场景中目标对象跟踪方法研究;(3)图像场景中目标身份再识别研究;(4)跨模态媒体处理方法研究。通过本课题的研究,课题组取得的成果取得了一些积极的探索结果,对自然场景中多类对象检测问题提产生有益的支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
基于全模式全聚焦方法的裂纹超声成像定量检测
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
用于Cu2ZnSn(S,Se)4太阳电池的Cd1-xZnxS缓冲层及吸收层/缓冲层界面电学特性研究
基于文字对称性与场景上下文信息的自然场景文字检测研究
基于视觉上下文与文字显著性的复杂自然场景中文字检测研究
基于视觉语义推理与上下文约束建模的场景理解方法研究
基于全尺度树及多约束条件的对象级变化检测方法