It has become an urgent problem to solve that how to make our computers obtain the scene semantics of the images by mimicking the human visual perception systems, from the vast image data resources, and then to effectively classified and organized these images. However, as there are intra-class object variations and inter-class visual similarities among the scene images, the task of the image scene semantic classification becomes very hard. According to these questions, this project intends to focus on the following contents: (1) We build the multi-scale contextual features and perform the clustering method to generate a visual dictionary, in which each visual word is regarded as a channel. Then we could get the feature projection distribution of every channel through feature mapping, and further conduct the feature validity choice based on the information entropy theory; (2) Depending on the different resolutions, the image can be divided into gradually refined regular superpixel lattices. Through the integration of relative positional relationship of the sub-region features, we can build the spatial hierarchical image semantic representation and design the classifier to complete the outdoor scene classification tasks; (3) Using the global and local properties of the image, we can build the star-constellation models of the image prototypes. It trains the mapping relationships among the images and the scene categorization labels, and then completes the indoor scene classification tasks. The project will have important theoretical value and broad application prospects on some tasks such as the image semantics classification and the reverse image search.
在浩如烟海的图像数据资源中,如何使计算机能够模仿人类视觉感知系统获取图像场景语义,对图像进行有效的分类管理与组织,已经成为当前亟待解决的问题。由于场景图像存在着较大的类内对象差异性和类间视觉相似性,图像场景语义分类任务十分困难。针对图像场景语义分类中存在的问题,本项目拟重点研究以下内容:(1)构建多尺度上下文特征,聚类生成视觉词典,每个视觉单词视作一个通道,进行特征映射得到每个通道的特征投影分布,基于信息熵理论进行特征有效性选择;(2)依据不同的分辨率,将图像划分为逐步精细的正则超像素网格,通过融合各子域特征的相对位置关系,建立空间层次化图像语义描述,设计分类器,完成室外场景分类任务;(3)利用图像全局、局部属性信息和图像原型,建立原型星型集群模型,训练图像和场景类标签之间的映射关系,完成室内场景分类任务。本项目研究对图像语义分类、反向图片搜索等都将具有重要的理论价值和广泛的应用前景。
互联网及数码设备的迅速普及导致图像数据规模急剧膨胀,如何从中找到真正所需,以及如何对图像数据进行有效的分类、管理与组织等,已经成为当前迫切需要解决的问题。人们在感知图像的过程中最关心的是图像高层语义层次上的内容,因此也希望计算机能够模仿人类视觉感知,对图像进行深层次理解,并自动完成图像语义分类。计算机视觉的最终研究目标就是使计算机能够像人一样通过视觉观察和理解世界。为使计算机能够自动进行图像场景分析与理解,本项目研究了模仿人类视觉感知机制的图像场景语义分类,为整体图像语义分析与理解提供研究思路和理论参考,对图像语义分类、反向图像搜索等具有重要的理论价值和应用前景。.本项目通过构建语义视觉词汇,融合各超像素网格子域内视觉特征的相对位置关系,建立空间层次化图像语义描述,并且完成以下内容:(1)提出了基于超像素网格加权的场景分类算法。本项目对训练集图像的边缘信息进行概率生成模型建模,学习各场景类的形状先验分布,推理其边界分布图像,用超像素网格分割图像。根据不同场景类结构主要变化方向不同,为超像素左右网格和超像素上下网格加权,在描述图像时增强结构信息,较好的完成场景图像分类;(2)提出了基于超像素空间金字塔模型和全局Gist特征的场景分类算法。本项目提取图像全局Gist特征和局部SIFT特征,对局部特征形成类码本,通过向量量化编码方式和局部约束线性编码方式,形成局部特征在视觉词典中的描述,结合超像素空间金字塔模型,串联局部特征和全局特征形成最终的图像描述,从而完成图像场景分类;(3)研究了基于显著性网格和空间网格的Object Bank特征室内场景分类算法。本项目将图像划分为对图像显著区域和非显著区域,并分别获取两大区域每个尺度每个探测器的初始响应图,每个值表示该目标出现的可能性。将显著区域和非显著区域响应串联得到显著性网格的Object Bank表示,将整幅图像响应图按空间网格方式划分,能够同时获取目标的外观和目标的空间信息,最终完成场景分类。
{{i.achievement_title}}
数据更新时间:2023-05-31
农超对接模式中利益分配问题研究
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
基于视觉感知的中国书画图像语义自动分类研究
基于深度特征语义感知视觉字典学习的联合图像分类及对象定位方法研究
基于多任务概率视觉语义模型的图像场景理解
面向大规模高分辨率遥感图像的场景语义分类