基于深度学习与动态规划的街景影像文本信息提取研究

基本信息
批准号:61601335
项目类别:青年科学基金项目
资助金额:22.00
负责人:刘菊华
学科分类:
依托单位:武汉大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:苏海,袁媛,单武扬,杨慧芳,申春辉,丰立昱,周罗岚
关键词:
街景影像文本定位深度学习文本识别动态规划
结项摘要

As one of the basic data of the photogrammetry system, street view images contain much important semantic text information, which provide key clues to describe and understand the image scene content. Therefore, research on text information extraction of street view images is of important significance. Aiming at tackling the shortages of existing methods, the research idea of “Candidate text localization – Candidate text enhancement – Text recognition” is proposed to develop the method of text information extraction of street view images based on deep learning and dynamic programming in this research. The main contents include: 1) Research on the method of text localization base on self-adaptive single-link clustering, which will provide the candidate text for text enhancement and recognition; 2) Research on deep learning theory and the establishment of character classifier via deep learning. Based on this, the candidate text enhancement method will be studied to provide reliable candidate characters for text recognition; 3) Research on intelligent text recognition based on dynamic programming. The dynamic programming will be combined with the feedbacks from the character classifier and the priori knowledge to perform intelligent text recognition, thereby improving the accuracy of text recognition. The research results will have important practical applications in numerous areas, such as image retrieval, smart navigation, smart city and city informatization.

街景影像作为摄影测量系统的基础数据之一,包含了许多重要的文本信息,这些具有明确语义的文本信息是描述与理解影像场景内容的关键线索,因此开展街景影像文本信息提取研究具有十分重要的意义。针对现有方法的不足,本研究拟提出“候选文本定位—候选文本增强—文本识别”的研究思路,发展基于深度学习与动态规划的街景影像文本信息提取方法,主要研究内容包括:1)研究基于自适应SLINK聚类的文本定位方法,为文本增强与识别提供候选文本;2)研究深度学习方法理论,构建基于深度学习的字符分类器,并在此基础上研究候选文本增强方法,为文本识别提供可靠的候选字符;3)研究基于动态规划的文本智能识别方法,利用动态规划算法,结合字符分类器与先验知识库的反馈信息对文本进行智能识别,提高文本识别精度。研究成果在图像检索、智能导航、智慧城市以及城市信息化等领域具有重要的实际应用价值。

项目摘要

街景影像通常包含了许多重要的文本信息,例如道路路牌、交通标识、建筑物名称、门牌号以及商店名称等信息,这些具有明确语义的文本信息是描述与理解图像场景内容的关键线索。虽然目前在文本检测与文本识别领域均取得较大的进展,但由于受到复杂背景、字体大小以及文本形状不规则等因素的影响,街景影像文本信息提取仍是一项非常具有挑战的任务。.在项目的支持下,本项研究将围绕街景影像文本信息提取中涉及到的关键性问题展开研究,主要内容与成果有:(1)开展快速准确的候选文本定位研究,提出了结合MSCRs与MSERs的文本检测方法以及基于FASText与级联卷积神经网络的文本检测方法两种方法;(2)开展候选文本增强方法研究,提出了一种基于图像特征变换的文本增强方法;(3)针对端到端的任意形状文本信息提取开展研究,提出了一种改进的Mask R-CNN的街景影像任意形状文本定位与识别方法研究。.按照既定的研究计划,项目组圆满完成课题设定的研究内容,实现了预期目标。在项目资助下,项目组发表了学术论文9篇,其中5篇SCI检索;申请/获批发明专利2项;获批软件著作权3项。此外,项目组还培养博士、硕士研究生4名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

相似国自然基金

1

基于深度学习的海量影像文本报告与医学图像复合信息挖掘

批准号:81671771
批准年份:2016
负责人:于丽娟
学科分类:H2708
资助金额:60.00
项目类别:面上项目
2

基于深度学习的数据-文本生成技术研究

批准号:61876004
批准年份:2018
负责人:常宝宝
学科分类:F0606
资助金额:62.00
项目类别:面上项目
3

基于弱监督和迁移学习的深度文本理解模型学习方法

批准号:61876144
批准年份:2018
负责人:管子玉
学科分类:F0606
资助金额:62.00
项目类别:面上项目
4

基于深度学习的文本和语音多模态数据挖掘研究

批准号:61672301
批准年份:2016
负责人:裴志利
学科分类:F0605
资助金额:62.00
项目类别:面上项目