Visual feature representation is the key step of computer vision, and the simple and efficient representation is the essence of visual understanding. Most hand-crafted visual features are only suitable for specific occasions and simple tasks. Although the recent deep learning technique shows promising ability to learn visual feature representations, it requires a large number of supervised samples. This project proposes to design ensemble deep self-taught learning framework, which can take advantage of self-taught learning, ensemble learning and deep learning to learn visual feature representations. Firstly, the model and training method of ensemble deep self-taught learning framework will be studied. The model and ensemble learning method will be studied, which can be trained to learn different visual cues from a large number of unlabeled low cost image and video data. Secondly, The framework based on generative adversarial networks will be designed to train ensemble deep self-taught feature representation learning model, which tries to learn element feature library of visual representation. Finally the approach to sparsely express images and videos using the visual feature representation element library will be studied, so as to implement the subsequent computer vision tasks, such as recognition and detection. The smooth development of the project will improve the theory and algorithm system of self-taught learning and deep learning, and provide an effective method for the extraction and representation of visual features.
视觉特征的表达是计算机视觉的关键步骤,简单高效的表达是视觉理解的本质。大多数人工设计的特征提取和表达方法只适合于特定场合和简单任务,近年来出现的利用深度学习实现特征的自动提取方法,虽然有学习特征表达的能力,但需要大量的监督样本。本项目提出结合自我学习、集成学习和深度学习进行视觉特征表达学习的研究。首先研究无监督集成深度学习模型,研究从大量无标签低成本图像和视频数据中集成学习不同视觉线索的模型与方法;其次研究构建生成对抗网络架构来训练自我集成深度特征表达学习模型,试图学习到视觉特征表达的基元库;最后研究利用此基元库进行图像和视频的分级稀疏表达,从而实现后续的计算机视觉任务,如分类和检测等。项目的顺利开展将完善自我学习与深度学习理论和算法体系,为视觉特征提取和表达提供一种有效的方法。
视觉特征的表达是计算机视觉的关键步骤,简单高效的表达是视觉理解的本质。本项目针对不同的视觉数据进行特征表达和学习的研究,利用集成学习和基于生成对抗的无监督学习方法,在不同的视觉任务上进行特征表达模型的研究。在RGB视频数据和人体骨架关键点视频数据进行特征提取和表达的研究方面,提出了协同时空注意力、多维特征激励融合、多维动态拓扑学习图卷积等一系列新颖的特征提取和表达方法,以学习到有效的时空视觉特征,并应用于人体动作识别和异常行为识别领域,获得了较大的性能提升。第二,对基于图像的数据进行特征提取和表达研究,以完成目标检测、显著性目标检测、深度估计和语义分割等基于单个图像信息的视觉任务,提出了一系列细节特征和语义特征增强和融合的方法,利用注意力指导模块集成多尺度、跨维度特征,设计交互模块以促进上下文语义信息和空间信息的交互学习,以完成不同级别的图像识别任务。另外,为了减少特征融合过程中的信息损失,提出了一种新的渐进式特征集中结构,将低级特征和高级特征逐层集成,实现多层次特征的递进融合,通过语义引导融合来缓解低层次特征在融合过程中导致的语义稀释问题,实现了更精准的特征表达。第三,集成多任务的特征表达学习研究,以利用有限的训练数据学习到通用视觉特征,同时结合生成对抗的训练学习方法,通过共享特征的学习和任务特定特征的学习,基于压缩激励和可选择权重的多任务学习网络利用可选择权重对语义分割特征和深度估计特征进行融合,学习对特定任务更具辨别性的特征。还研究了文本特征与视觉特征的融合,设计因果卷积层促进图像特征的准确描述。最后,还对特定领域,交通标志图像及光学遥感图像进行了特征表达和描述的研究,结果表明通用领域的特征学习方法需要根据领域进行微调才能获得更好的识别效果。本项目研究的实验结果表明了所提出方法的有效性,对于视觉特征表达和通用视觉任务的研究具有重要的理论意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
融合浅层模型和深度网络的视觉特征学习研究
基于深度迁移学习的跨领域视觉特征融合与分类
基于时空特征深度学习的无约束场景视觉目标跟踪研究
基于快速视觉注意模型和深度学习的视觉跟踪