草图的文本描述及其图像检索算法

基本信息

批准号：61601042

项目类别：青年科学基金项目

资助金额：19.00

负责人：齐勇刚

学科分类：

依托单位：北京邮电大学

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：张洪刚,宋一晢,狄帅,林毅,魏欣茹,张艳婷

关键词：

静态图像检索草图的文本生成图像匹配基于草图的图像检索

结项摘要

Sketch-based image retrieval (SBIR) is a fundamental problem in computer vision and pattern recognition. Almost of the state-of-the-art SBIR approaches are based on shape analysis and retrieve images by measuring the shape similarities to the query sketch. However, sketches are abstract depictions that are intrinsically different from their natural object statistics, hence boundaries of real images can hardly be matched to strokes of sketches for this ambiguity inherent in sketch, which probably lead to failure for the task of SBIR. We propose at the novel angle of image and sketch understanding for SBIR, that is to investigate the sematic meaning contained in a query sketch and the candidate images by caption generation. In particular, given a query sketch, the candidate images are ranked by measuring the sematic distance between the generated sketch caption and image captions. To the best of our knowledge, it is the first attempt to research into sketch caption generation. The goal is to better understand the content of the sketch, i.e. the user’s intention of retrieval, which is for the purpose of matching to the candidate images by measuring the sematic distances between sketch and image captions. In a word, the proposal is the first attempt to tackle SBIR by generating captions both for query sketch and candidate images, and followed by a caption matching process by a language model. The key challenges what we are going to tackle is in the following aspects: image caption, sketch caption and caption sematic distance measuring.

基于草图的图像检索是计算机视觉及模式识别的一个热点问题。现有方法大部分都采用基于形状特征的图像检索算法，然而人的手绘草图是一种高度抽象的绘画形式，往往很难与图像物体的边缘形状相吻合，会直接导致检索效果不佳。本项目拟从探究草图与一般图像所蕴涵的语义内容出发，提出其语义内容的文本描述模型及其自动生成算法，在此基础上，通过两者文本描述的语义相似度进行基于草图的图像检索。本项目的意义在于：通过草图的文本描述，更加深入和准确的理解草图所表达的内容与人的检索意图，实现在语义级别上草图与一般图像的关联。概括来讲，本项目从图像理解和语义分析的角度尝试解决基于草图的图像检索任务。本项目分为三个研究内容：图像的文本描述生成算法，草图的文本描述生成算法，以及文本描述的语义距离衡量算法。

项目摘要

本课题首次从图像理解和语义分析的角度尝试解决基于草图的图像检索任务。人的手绘草图是一种高度抽象的绘画形式，往往很难与图像物体的边缘形状相吻合，导致检索效果不佳。因此，课题从探究草图与一般图像所蕴涵的语义内容出发，研究如何通过衡量两者文本描述的语义相似度来达到基于草图的图像检索的目标。具体地，课题涉及的研究内容有：（1）如何通过对草图进行语义级别的分割理解；（2）如何收集大规模草图及其文本描述数据集；（3）如何通过对图像的文本描述进行推理，从而检索相关图像；（4）从非监督学习的角度，学习图像到草图的跨域生成模型，并用于草图图像检索。对应的重要结果包括：（1）构建了一个超大规模草图分割数据集，并基于谷歌QuickDraw草图数据集提出了SketchSeg-150K草图分割数据集，是一个包含15万张草图笔画粒度标注的分割数据集。此外，还提出了一个笔画级别草图分割算法SketchSegNet+，是一个端到端的深度学习框架（RNN），能够有效进行草图的笔画级别分割。解决草图分割问题是解决细粒度的草图理解的关键，对于很多草图相关的应用都有极其重要的意义，例如包括草图识别、基于草图的图像检索等。（2）研究了其中一些关键算法和环节，包括如何将图像文本描述化、如何将密集文本描述转化为场景图网络、以及如何对场景图网络进行相似度匹配。这些环节是基于文本描述的图像相似度匹配的最关键步骤，有重要意义。（3）提出了一种非监督的一般图像-草图的翻译深度模型，能够完成一般图像的“草图化”，跨域生成式模型也可将一般图像的特征转化到草图域，因此可以用于草图-一般图像的相似度度量，完成草图-图像的检索任务。这对于传统的有监督学习是极大不同的，更适合不易得到标注数据的草图-图像检索场景当中。（4）建立草图-文本描述数据集，相对于一般图像的文本描述，草图的文本描述很难收集。课题采取给一般图像描绘草图的方式来让草图与文本描述对应。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

齐勇刚的其他基金

相似国自然基金

基于深度学习的手绘草图图像检索方法研究

批准号：61672165

批准年份：2016

负责人：金城

学科分类：F0211

资助金额：63.00

项目类别：面上项目

图像语义自动文本描述技术研究

批准号：61370157

批准年份：2013

负责人：周向东

学科分类：F0210

资助金额：76.00

项目类别：面上项目

自然场景中多模态图像内容的文本描述方法研究

批准号：61772505

批准年份：2017

负责人：马龙龙

学科分类：F0211

资助金额：61.00

项目类别：面上项目

基于深度学习的图像文本描述自动生成方法研究

批准号：61806218

批准年份：2018

负责人：郭延明

学科分类：F0604

资助金额：19.00

项目类别：青年科学基金项目

草图的文本描述及其图像检索算法

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

针对弱边缘信息的左心室图像分割算法

基于改进LinkNet的寒旱区遥感图像河流识别方法

信息熵-保真度联合度量函数的单幅图像去雾方法

水中溴代消毒副产物的生成综述

齐勇刚的其他基金

相似国自然基金