In this project, a novel discriminative 3D spatial saliency computational model is proposed by using the spatial relations between objects and scene. Most of the state-of-the-art 3D saliency detection methods only take the depth information as the low-level feature, but this ignores the influence of depth information on 3D scene representation. To overcome this, there are four main issues to be addressed in this project: 1). A robust stereo matching algorithm that incorporates the monocular cues contained in the image is presented. The proposed algorithm uses multi-scale image segmented regions as matching primitives and exploits a cooperative optimization procedure to minimize the matching costs of all regions by introducing the cooperative and competitive mechanism between regions. 2). Based on the block world model, a qualitative physical representation of an outdoor scene is presented, where objects have volume and mass, and relationships describe 3D structure and mechanical configurations. Then a novel combinatorial optimization approach is proposed to build up a physically-plausible 3D interpretation of the scene. 3). Inspired by the basic photographic composition rules, a novel saliency computational model is presented, which utilizes the knowledge of photographic composition as priors to express the scenario of photographer. 4)A contextualizing framework, which iteratively and mutually boosts stereo image classification and 3D salient object detection by taking the outputs from one task as the context of the other one, is presented. The proposed solution is supposed to be superior over the existing methods.
本项目面向3D图像内容,针对现有视觉显著性计算方法的不足,依据目标-场景的3D空间关系,提出具有3D空间辨识力的视觉显著计算模型,并对由此引出的如下科学问题和关键技术开展研究:1)以多尺度图像分割区域作为基元,基于协同优化的思想,融合基于单眼线索和基于立体匹配的深度估计方法,提高自然场景深度估计的精度和鲁棒性。2)利用积木世界模型描述3D场景,通过将图像的各个分割区域模化为带有几何和物理属性的积木实体,基于几何空间约束和物理稳定性约束,采用组合优化策略建立目标与场景间的3D空间关系。3)基于摄影构图的基本规则,寻求从目标-场景的3D空间布局中估计出摄影者想表征的事物或主题,并通过心理学实验获取其视觉显著性的表示方法。4)将3D显著性检测和立体图像分类结合起来,通过设计一个互为上下文关系的迭代框架,采用交替渐进优化的方法,一方面增强显著性区域的3D空间辨识性,另一方面提高图像分类问题的效果。
本项目所提出的 “3D空间辨识力”这一概念,是指从图像内容中抽象和刻画3D场景空间布局的能力。为了自动计算和提取出图像内容中具有3D空间辨识力的显著性区域,并将其扩展应用于图像增强、机器人自主导航、目标分类等视觉任务中,本项目针对如下内容进行了深入研究:1)融合多种深度感知线索的深度估计方法研究。将基于散焦、纹理变化、光线穿透度等单眼深度线索的图像局部特征与基于立体视差、运动视觉等多视角深度线索的图像全局特征相结合,一方面利用单眼线索克服分辨率不足、运动模糊等因素所带来的影响,提高深度估计结果的鲁棒性,另一方面利用多视角深度线索所提供的精确测量信息,提高深度估计方法的可靠性。2)基于深度信息的自然场景3D空间表示。 融合图像中内蕴的散焦程度、纹理梯度、消失线等多种深度线索,采用监督学习的方式结合目标-场景的空间布局先验约束,从自然图像中自动提取空间结构辨识特征,实现场景结构感知的自然场景3D空间表示,并将其应用于飞行机器人自主巡航、人群密度估计等视觉任务中。3)基于目标-场景3D空间关系的视觉显著计算模型。建立了一个以眼动数据作为真实显著性检测结果的立体图像数据库,为3D视觉显著计算研究提供了研究平台。引入了摄影构图模式的思想,从目标-场景的3D空间布局中估计出摄影者想表征的事物或主题,并将其引入到视觉显著计算框架中。4)3D视觉显著计算模型的应用。一方面将3D显著性特征与自下而上的底层图像特征相结合,抑制图像中大量无关像素的干扰,改善图像增强的效果;另一方面将其与自上而下的高层语义特征相结合,增强显著性区域的3D空间辨识性,提高立体图像分类的准确性。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
内点最大化与冗余点控制的小型无人机遥感图像配准
基于细粒度词表示的命名实体识别研究
Combining Spectral Unmixing and 3D/2D Dense Networks with Early-Exiting Strategy for Hyperspectral Image Classification
基于显著性共生结构的视觉计算模型和图像检索研究
基于感知增强理论的视觉显著性计算
面向夜间视频的视觉显著性模型研究
显著视觉相似性度量模型及应用