Sketch-based image retrieval (SBIR) is a fundamental problem in computer vision and pattern recognition. Almost of the state-of-the-art SBIR approaches are based on shape analysis and retrieve images by measuring the shape similarities to the query sketch. However, sketches are abstract depictions that are intrinsically different from their natural object statistics, hence boundaries of real images can hardly be matched to strokes of sketches for this ambiguity inherent in sketch, which probably lead to failure for the task of SBIR. We propose at the novel angle of image and sketch understanding for SBIR, that is to investigate the sematic meaning contained in a query sketch and the candidate images by caption generation. In particular, given a query sketch, the candidate images are ranked by measuring the sematic distance between the generated sketch caption and image captions. To the best of our knowledge, it is the first attempt to research into sketch caption generation. The goal is to better understand the content of the sketch, i.e. the user’s intention of retrieval, which is for the purpose of matching to the candidate images by measuring the sematic distances between sketch and image captions. In a word, the proposal is the first attempt to tackle SBIR by generating captions both for query sketch and candidate images, and followed by a caption matching process by a language model. The key challenges what we are going to tackle is in the following aspects: image caption, sketch caption and caption sematic distance measuring.
基于草图的图像检索是计算机视觉及模式识别的一个热点问题。现有方法大部分都采用基于形状特征的图像检索算法,然而人的手绘草图是一种高度抽象的绘画形式,往往很难与图像物体的边缘形状相吻合,会直接导致检索效果不佳。本项目拟从探究草图与一般图像所蕴涵的语义内容出发,提出其语义内容的文本描述模型及其自动生成算法,在此基础上,通过两者文本描述的语义相似度进行基于草图的图像检索。本项目的意义在于:通过草图的文本描述,更加深入和准确的理解草图所表达的内容与人的检索意图,实现在语义级别上草图与一般图像的关联。概括来讲,本项目从图像理解和语义分析的角度尝试解决基于草图的图像检索任务。本项目分为三个研究内容:图像的文本描述生成算法,草图的文本描述生成算法,以及文本描述的语义距离衡量算法。
本课题首次从图像理解和语义分析的角度尝试解决基于草图的图像检索任务。人的手绘草图是一种高度抽象的绘画形式,往往很难与图像物体的边缘形状相吻合,导致检索效果不佳。因此,课题从探究草图与一般图像所蕴涵的语义内容出发,研究如何通过衡量两者文本描述的语义相似度来达到基于草图的图像检索的目标。具体地,课题涉及的研究内容有:(1)如何通过对草图进行语义级别的分割理解;(2)如何收集大规模草图及其文本描述数据集;(3)如何通过对图像的文本描述进行推理,从而检索相关图像;(4)从非监督学习的角度,学习图像到草图的跨域生成模型,并用于草图图像检索。对应的重要结果包括:(1)构建了一个超大规模草图分割数据集,并基于谷歌QuickDraw草图数据集提出了SketchSeg-150K草图分割数据集,是一个包含15万张草图笔画粒度标注的分割数据集。此外,还提出了一个笔画级别草图分割算法SketchSegNet+,是一个端到端的深度学习框架(RNN),能够有效进行草图的笔画级别分割。解决草图分割问题是解决细粒度的草图理解的关键,对于很多草图相关的应用都有极其重要的意义,例如包括草图识别、基于草图的图像检索等。(2)研究了其中一些关键算法和环节,包括如何将图像文本描述化、如何将密集文本描述转化为场景图网络、以及如何对场景图网络进行相似度匹配。这些环节是基于文本描述的图像相似度匹配的最关键步骤,有重要意义。(3)提出了一种非监督的一般图像-草图的翻译深度模型,能够完成一般图像的“草图化”,跨域生成式模型也可将一般图像的特征转化到草图域,因此可以用于草图-一般图像的相似度度量,完成草图-图像的检索任务。这对于传统的有监督学习是极大不同的,更适合不易得到标注数据的草图-图像检索场景当中。(4)建立草图-文本描述数据集,相对于一般图像的文本描述,草图的文本描述很难收集。课题采取给一般图像描绘草图的方式来让草图与文本描述对应。
{{i.achievement_title}}
数据更新时间:2023-05-31
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
平行图像:图像生成的一个新型理论框架
基于深度学习的手绘草图图像检索方法研究
图像语义自动文本描述技术研究
自然场景中多模态图像内容的文本描述方法研究
基于深度学习的图像文本描述自动生成方法研究