基于区分型码本的图像表示的研究与应用

基本信息
批准号:61503145
项目类别:青年科学基金项目
资助金额:22.00
负责人:王兴刚
学科分类:
依托单位:华中科技大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:姚聪,柏松,陈攀,李超,姜玉静,段雄,黄子龙
关键词:
码本学习图像表示区分型学习物体识别
结项摘要

Feature set based image representation is an important yet challenging problem in computer vision and machine learning, which plays a critical role in a wide spectrum of applications. In this project, we propose a novel image representation method based on discriminative codebook. Comparing to the state-of-the-art data representation methods using generative codebook, main advantages of discriminative codebook lie in the following three aspects: (1) it uses a new space partition strategy, which makes our codebook more compact; (2) it learns weights for each dimension of data, which helps to fuse different kinds of features; and (3) it contains high-level semantics. We focus on studying the characteristics of discriminative codebook, discriminative codebook learning approaches, coding approaches of discriminative codebook, image representation using discriminative codebook, and how to apply the proposed image representation for large-scale image classification, object detection etc. The research in this project helps to solve the fundamental problems in machine learning and computer vision, such as discriminative clustering, weakly supervised learning and object recognition. Besides, the flexibility of our discriminative codebook learning method makes it possible to be widely applied to text, audio and other types of data, and thus promotes the development in the related areas.

基于特征集的图像表示是计算机视觉中十分核心且具有挑战性的问题,在诸多应用中发挥着重要作用。本项目拟提出一种新颖的基于区分型码本的图像表示方法,它具有三个主要优点:(1)采用了一种新的数据空间划分方式,使得图像表示更加简洁;(2)区分型码本自动学习样本各维度的权重,可以有效融合不同种类的特征;(3)能够在码本中融入人工标注的高层语义,使得图像表示更加高效。本课题研究焦点在于区分型码本的性质、学习方法、编码方法、图像表示、以及解决大规模数据下的图像分类、物体检测等应用问题。本课题中的研究有助于解决区分型聚类、弱监督学习、物体识别等机器学习、计算机视觉领域中的任务。另外,区分型码本是一种通用的码本表示方法,可以应用于文本、音频等多媒体数据的表示,并推动相关领域的研究发展。

项目摘要

图像的表示是计算机视觉中的核心问题,本项目中以区分型码本为中心来研究新型的图像表示方法,在基于深度学习的区分型码本学习、多示例神经网络、弱监督图像理解三个方面的内容展开了深入的研究。在区分型码本学习方面,本项目提出了以Deep Patch Learning和FisherNet为代表的方法,在标准测试PASCAL VOC上以较少量的计算取得了业界最好的物体分类性能;其科学意义在于利用局部特征学习使能小尺度物体分类,以及通过区分式学习构建精简的图像表示,从而同时获得高精高速的图像分类网络。在多示例神经网络方面,本项目提出了采用深度学习的形式和端到端优化的方法来求解多示例学习问题,在几乎所有的多示例学习标准测试集上都取得了业内最好的性能。其科学意义在于通过深度神经网络来有效求解集合预测问题,揭示了对于多示例具有交换不变性的神经网络的重要性。在弱监督图像理解方面,本项目提出了一系列优秀的弱监督物体检测和语义分割方法,例如:OICR、WeakRPN、DSRG、PCL等,是目前效果最好的弱监督图像理解系统,取得了较大的影响力。其科学意义在于揭示了图像内在信息分布的平滑性对于弱监督图像理解的重要性,并利用这种平滑性来让物体检测网络和语义分割网络进行自监督学习。相关研究成果可以用于在医学图像分析、互联网图像搜索等领域构建大规模的图像识别系统中应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
5

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018

王兴刚的其他基金

批准号:61876212
批准年份:2018
资助金额:65.00
项目类别:面上项目

相似国自然基金

1

图像识别中区分性稀疏表示理论与方法研究

批准号:61202228
批准年份:2012
负责人:陈思宝
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
2

基于无视觉码本框架的大规模图像检索研究

批准号:61472378
批准年份:2014
负责人:周文罡
学科分类:F0210
资助金额:84.00
项目类别:面上项目
3

基于形状空间的图像表示的研究与应用

批准号:61703171
批准年份:2017
负责人:许永超
学科分类:F0604
资助金额:25.00
项目类别:青年科学基金项目
4

基于最小码本原理的图像规则结构的提取

批准号:60675012
批准年份:2006
负责人:潘春洪
学科分类:F0605
资助金额:26.00
项目类别:面上项目