Image classification and object localization are the important researches in computer vision and multimedia processing. How to efficiently predict the class of image and obtain the semantic regions are the challenging problems currently.In the light of present situation, this project proposes a new method that addresses image classification and object localization jointly based on the deep features semantic-aware visual dictionary learning. In this project, we systematically blend deep features of objectness proposals into the discriminative dictionary learning. Furthermore, a region selection constrain is designed and then incorporated into the objective optimization function in order to discover the semantic objects effectively. Compared with the traditional dictionary learning approaches, this project has the superior performance to explore the mid-high level semantic information from images. Finally, a novel method is constructed to generate the global image representation and capture the semantic objects based on the reconstruction property of sparse representation. This research project provides a new idea and theoretical basis for image classification and object localization.
图像分类及对象定位是计算机视觉及多媒体处理领域的重要研究内容,而如何高效地预测图像类别及准确提取语义对象区域仍然是一个挑战性课题。本项目针对当前图像分类及对象定位研究方法的现状,提出了基于深度特征语义感知视觉字典学习的联合图像分类及对象定位新方法。项目中系统地融合了对象性区域深度特征及判别性字典学习,同时引入语义对象窗口的选择性约束于优化目标函数。并在此基础上,构建基于判别性聚类的语义子类生成方法,结合稀疏模型重构特征,建立了多级视觉字典提取结构。相比传统字典学习方法,该方法具有更优的图像数据中高层语义信息获取能力。最终,根据字典的稀疏重构特性,提出了图像全局特征构建及语义对象定位的新方法。本项目的研究有望为解决图像分类及对象定位问题提供新的思路和理论依据。
本项目围绕着“基于视觉字典感知模型的图像分类及对象定位”这一核心目标,研究了稀疏字典驱动的关键点检测方法、构建了面向深度特征知识迁移的语义属性表示模型,探索了基于光流及深度学习的实时对象定位算法,取得了一系列创新性的研究成果。所开展的研究包括关键点检测、语义属性表示、对象定位三个层面,具体研究内容为:1)提出了稀疏感知字典驱动的关键点检测模型,从理论机理上突破了现有方法受限于固有结构模式的缺陷。方法中引入重构图像块的组稀疏联合约束,有效提升了同场景图像关键点提取的一致性。在此基础上,建模特征点视觉空间拓扑约束关系,增强了模型应对尺度、光照变化及复杂背景干扰的不变性。该课题的研究有效扩展了现有关键点检测方法的理论体系。2)构建了基于视觉属性挖掘的成对字典学习模型,提出了训练数据极端不平衡条件下,增强属性嵌入空间语义性的新方法。建立了基于类内视觉模式分享的字典模型、基于邻近性池化的注意力网络,实现了语义对象区域的自适应选择。此外,研究了局部二值纹理描述中颜色序模式及空间邻域关系的引入策略,揭示了纹理属性与局部结构不变性之间的内在关联。3)提出了基于残差光流估计的移动对象检测方法,通过运动区域不同模态数据的解析,实现了密集光流信息中语义对象的准确定位。构建了融合区域生成及特征提取卷积网络层的新模型,并提出基于编译码器结构的实时语义分割网络,改善了实际车辆道路场景中对象定位易受光照条件干扰,以及小目标对象检测的问题。针对以上三个层面的课题内容,开展了一系列的研究工作,相关成果在国际著名期刊及会议上共发表/录用11篇学术论文,其中SCI期刊论文7篇,会议论文4篇。形成的关键技术申请国家发明专利5项,培养研究生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
内点最大化与冗余点控制的小型无人机遥感图像配准
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于隐式字典深度学习的图像分类识别研究
仿视觉感知机制的图像场景语义分类研究
基于视觉感知的中国书画图像语义自动分类研究
基于深度判别特征学习的SAR图像地物分类