Feature set based image representation is an important yet challenging problem in computer vision and machine learning, which plays a critical role in a wide spectrum of applications. In this project, we propose a novel image representation method based on discriminative codebook. Comparing to the state-of-the-art data representation methods using generative codebook, main advantages of discriminative codebook lie in the following three aspects: (1) it uses a new space partition strategy, which makes our codebook more compact; (2) it learns weights for each dimension of data, which helps to fuse different kinds of features; and (3) it contains high-level semantics. We focus on studying the characteristics of discriminative codebook, discriminative codebook learning approaches, coding approaches of discriminative codebook, image representation using discriminative codebook, and how to apply the proposed image representation for large-scale image classification, object detection etc. The research in this project helps to solve the fundamental problems in machine learning and computer vision, such as discriminative clustering, weakly supervised learning and object recognition. Besides, the flexibility of our discriminative codebook learning method makes it possible to be widely applied to text, audio and other types of data, and thus promotes the development in the related areas.
基于特征集的图像表示是计算机视觉中十分核心且具有挑战性的问题,在诸多应用中发挥着重要作用。本项目拟提出一种新颖的基于区分型码本的图像表示方法,它具有三个主要优点:(1)采用了一种新的数据空间划分方式,使得图像表示更加简洁;(2)区分型码本自动学习样本各维度的权重,可以有效融合不同种类的特征;(3)能够在码本中融入人工标注的高层语义,使得图像表示更加高效。本课题研究焦点在于区分型码本的性质、学习方法、编码方法、图像表示、以及解决大规模数据下的图像分类、物体检测等应用问题。本课题中的研究有助于解决区分型聚类、弱监督学习、物体识别等机器学习、计算机视觉领域中的任务。另外,区分型码本是一种通用的码本表示方法,可以应用于文本、音频等多媒体数据的表示,并推动相关领域的研究发展。
图像的表示是计算机视觉中的核心问题,本项目中以区分型码本为中心来研究新型的图像表示方法,在基于深度学习的区分型码本学习、多示例神经网络、弱监督图像理解三个方面的内容展开了深入的研究。在区分型码本学习方面,本项目提出了以Deep Patch Learning和FisherNet为代表的方法,在标准测试PASCAL VOC上以较少量的计算取得了业界最好的物体分类性能;其科学意义在于利用局部特征学习使能小尺度物体分类,以及通过区分式学习构建精简的图像表示,从而同时获得高精高速的图像分类网络。在多示例神经网络方面,本项目提出了采用深度学习的形式和端到端优化的方法来求解多示例学习问题,在几乎所有的多示例学习标准测试集上都取得了业内最好的性能。其科学意义在于通过深度神经网络来有效求解集合预测问题,揭示了对于多示例具有交换不变性的神经网络的重要性。在弱监督图像理解方面,本项目提出了一系列优秀的弱监督物体检测和语义分割方法,例如:OICR、WeakRPN、DSRG、PCL等,是目前效果最好的弱监督图像理解系统,取得了较大的影响力。其科学意义在于揭示了图像内在信息分布的平滑性对于弱监督图像理解的重要性,并利用这种平滑性来让物体检测网络和语义分割网络进行自监督学习。相关研究成果可以用于在医学图像分析、互联网图像搜索等领域构建大规模的图像识别系统中应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
图像识别中区分性稀疏表示理论与方法研究
基于无视觉码本框架的大规模图像检索研究
基于形状空间的图像表示的研究与应用
基于最小码本原理的图像规则结构的提取