3D立体视频技术已渗透到众多领域,而海量的3D数据处理一直是制约其推广应用的主要瓶颈。基于"预感知"理论的显著性检测方法,以符合人眼视觉感受为前提,模拟人类视觉快速处理过程,不同视频区域分配不同的运算资源,可以在保障视频内容质量的前提下,极大减少计算量。已有的3D立体视频显著性模型存在运算代价大、对深度信息影响分析不足等缺点,本项目拟从生理学和心理学的角度出发,以选择性机制为基础,探索3D立体视频显著性检测建模方法。针对目前显著性算法复杂度高的特点,研究影响显著性的主要刺激特性(2D图像特性、运动特性及深度特性)的快速提取算法;运用眼动跟踪系统,研究眼动数据中深度特性对3D立体视频显著性的影响;通过研究人眼视觉系统特性,建立基于互信息的选择性3D立体视频显著性模型。本项目为3D立体视频显著性检测提供一套理论方法的同时,有望推动3D领域数据压缩、传输与存储技术的发展。
3D立体视频/图像数据源以及对应的ground-truth的视差/深度数据库的缺乏,以及用来验证算法有效性的视觉固定点密度图(Fixation Density Map)的匮乏,是阻碍3D立体视频/图像显著性模型研究发展的主要原因之一,本项目在整理和搜集目前已有的公开的3D数据库的基础上,创建和完善了3D视频/图像数据库、视差/深度数据库和眼动数据库。整个数据库包含22段3D立体视频;103组3D立体图像对以及对应的视差/深度图像;20组3D立体图像的固定点密度图。为了体现全面性,我们还将3D立体图像和立体视频序列按照自然场景、人造场景、加噪场景、深度变化剧烈场景、和深度变化较少场景等进行分类整理,并增加了4段3D立体电影片段,以求3D场景的全面性和完善性。. 3D 立体视频/图像显著性模型建模还没有成熟的框架可以借鉴,之前多数人采用了把多个刺激特征直接加权融合的方法来生成3D显著性图,实验证明这种方法并不能真实反映出人类的视觉特性,并且在运算时间上存在很大的瓶颈。本项目的一个贡献是从分析实践结果向得出理论框架的思路出发,根据实验采集的眼动数据,基于视觉感知技术,科学地分析和总结,将不同场景下的刺激特性进行优先权的划分,利用选择性机制,进一步对高、低优先级的刺激特性的进行动态融合,最终生成3D显著性图。深度对3D立体视频/图像显著性的影响如何量化尚不明确,本项目的另一个贡献是采用两种不同的方法分析和量化深度信息对3D显著性的影响:一方面,排除其他刺激源,只给观察者有关深度的基本视觉刺激;另一方面,把所有刺激因素都叠加在立体视频或者图像上给观察者观看。用两种方法记录眼动跟踪仪的信息,并提炼参数分析,以量化深度信息对3D视频/图像显著性的影响。. 在完成了3D立体视频/图像数据库创建和显著性建模的基础上,本项目又对3D立体视频/图像的应用进行了扩展,进一步完成了四个主要方向的应用研究,包括:基于条件随机场CRF(Conditional Random Field)的多层次多特征目标表示模型研究;基于深度信息(Depth Cue)辅助和外观特征的目标检测;基于异质互补特征和PSO-Adaboost特征选择的人脸检测算法的研究和基于聚类的视频文字的自动定位与分割算法研究等,这些算法通过仿真计算,在同类优等算法的比较中都取得了较好的实验结果。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于SSVEP 直接脑控机器人方向和速度研究
Combining Spectral Unmixing and 3D/2D Dense Networks with Early-Exiting Strategy for Hyperspectral Image Classification
Facile Fabrication of Hollow Hydrogel Microfiber via 3D Printing-Assisted Microfluidics and Its Application as a Biomimetic Blood Capillary
简化的滤波器查找表与神经网络联合预失真方法
基于立体视觉显著性的多视点视频编码理论与技术研究
基于高阶张量分解的复杂视频显著性目标探测模型
面向夜间视频的视觉显著性模型研究
云计算环境下基于立体视觉的3D高清视频信息隐藏研究