The RGB and depth images of RGB-D data are acquired independently and have complementary visual information which has the ability of comprehensive visual perception. The potential of RGB-D data cannot be discovered properly because most existing RGB-D image classification methods are inspired by the conventional methods instead of the characteristics and problems of the heterogeneous multi-modal data. The aim of this project is about to propose a comprehensive adaptive fusion framework. The framework is able to explore the complementarity and deal with the problem of the redundancy and heterogeneity of modal representation based on the independence of data acquisition. The importance of this project is as follows: the structure of multiple layered networks of the hierarchical model learns the top-down and bottom-up visual feature via similarity constraints and improves the robustness of the representation; the recursive neural networks with tree-based topological structure remove the redundancy of the modal representation; reconstruction network and total network regularization solve the initialization and over-fitting problems; diversity-preserving algorithm solves the problem of unbalanced examples during model updating; adaptive multi-modal deep co-training removes the heterogeneity and utilizes the complementarity of the modal representation. In summary, this project will study the RGB-D image classification thoroughly in order to provide new viewpoints and methods.
RGB-D数据中颜色和深度图像的采集方式相互独立,在视觉信息上相互补充,具有全面的视觉感知能力。当前的方法大多是对传统方法进行移植,没有针对异质多模态数据的特点和存在的问题综合设计,无法充分发挥RGB-D数据的潜力。本项目旨在提出完整的自适应融合框架,以采集方式独立性为前提,充分挖掘RGB-D数据的互补特性,解决其存在的模态表达冗余性和异构性的问题。在深度协同训练框架下,本项目的意义在于层次化模型的多层网络结构,结合图像相似度约束,学习自下而上和自上而下相结合的视觉特征,提升了表达的鲁棒性;树状拓扑结构的递归神经网络消除了模态的冗余性;重构网络和网络完全正则化理论解决了模型对初始化参数敏感和过拟合的问题;多样性保持算法解决了模型更新样本不均衡的问题;自适应的多模态深度协同训练消除了模态异构性,发挥了模态互补性。总之,本项目将全面深入地探索RGB-D图像分类,以期给该方向带来新观点和新方法。
当今,有效地融合三维空间信息以及二维图像信息,进一步提升图像分类的准确度和鲁棒性,成为计算机视觉发展的必然趋势。随着新型的消费级深度传感器可实现同步获得高分辨率的RGB图像和高质量的depth图像 (即RGB-D数据),宣告这一时刻的提前到来。本项目的主要研究内容是围绕RGB-D数据在视觉信息上的互补特性,研究单模态特征学习方法和RGB-D 数据特征表达方法,之后又充分考虑物体识别中大规模人工标记训练样本标签的成本代价,研究大规模无标注样本条件下RGB-D数据的无监督特征表达学习,构造了两种无监督的多层网络结构的层次化模型来有效地表征RGB-D数据各个模态的特性。研究层次化模型的多层网络结构和多模态协同训练模型的机制,以及特征学习的鲁棒性建模和在线学习算法,实现协同训练模型的优化。在少量标注样本结合大规模无标注样本条件下,研究RGB-D物体的特征及分类器联合协同学习,提出了一种基于协同学习的半监督特征及分类器联合学习框架。研究大规模标注样本条件下RGB-D物体尺度及视角不变性的多模态融合学习,提出一种密集匹配策略将物体映射到同一个尺度及视角空间,并在该空间定义了一种多模态融合学习策略来动态的权衡RGB-D图像中各个模态的重要性,有效地融合RGB和depth模态的互补性能进一步提升RGB-D图像分类的准确度和鲁棒性。最后为将RGB-D图像分类研究与室内智能视频监控和机器人视觉等实际应用问题相结合,研究了相比图片级的RGB-D分类任务难度更大的像素级RGB-D分类任务,即场景语义分割,提出了一种开关融合策略来学习RGB和depth两种模态在描述不同场景下各种物体时权重的可变性,用于进一步提升分类的精度。总之,本项目全面深入地探索RGB-D图像的分类问题,在多个RGB-D图像分类标准库上都获得了最高的分类精度,为该方向带来新观点和新方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
Influencing factors of carbon emissions in transportation industry based on CD function and LMDI decomposition model: China as an example
内点最大化与冗余点控制的小型无人机遥感图像配准
The Role of Osteokines in Sarcopenia: Therapeutic Directions and Application Prospects
基于多模态信息特征融合的犯罪预测算法研究
有效融合多源异构数据的集成分类器研究
基于协同粒化的异构多模态数据高效约简与融合及其应用
信息物理融合系统中多模态数据的融合机制研究
基于多模态图像和多分类器融合的DBT肿块自动检测方法研究