基于深度学习的场景文本检测和识别算法研究及应用

基本信息

批准号：61503367

项目类别：青年科学基金项目

资助金额：21.00

负责人：huangweilin

学科分类：

依托单位：中国科学院深圳先进技术研究院

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：李英,高永强,郭胜,杜文斌,徐霄,宋迪屏,陈翔

关键词：

后处理低质图像文本识别字符切分字符特征提取文字识别应用

结项摘要

The goal of this project is to propose novel approaches for scene text detection and recognition in unconstrained natural images, by leveraging the high capability of deep learning models. We analyze main limitations of existing deep models for text-features extraction, and propose new deep models for robustly learning and recognizing the true text-features, in an effort to bridge the performance gap between recognitions of scene texts and traditional printed/scanned documents. On the one hand, motivated by the basic functions of human vision system, we develop a Text-attentional Convolutional Neural Networks (Text-CNN) to accurately extract character features from natural images(patches). We build a multi-tasks learning model to effectively incorporate different levels of highly-supervised text information (including low-level shapes, character labels and text/non-text ) into the learning process subsequently. This enables the Text-CNN with stronger capability for locating the true text-features, and hence reduces the influences of non-text objects or background information substantially. On the other hand, for recognition, we design a novel Word-attentional Convolutional Neural Networks (Word-CNN) to compute a sequential high-level features from a whole word patch, by exploiting a similar mulit-tasks learning pipeline. Then we build the final word recognition system by leveraging the strong 'memory' and discriminative abilities of the recurrent LSTM model for long sequential word-features recognition. Besides, we also develop a novel Dual Text-Salience Detection (DTSD) approach for improving the Recall of the MSERs method for text component detection.

本项目以深度学习为主要工具, 研究和开发非限制条件下自然场景文本检测和识别算法。通过深入分析现有深度模型在提取场景文本特征方面的局限性，我们提出新的深度模型来更有效地提取和识别文本/字符特征，以缩小场景文本与传统打印/扫描文档识别之间的性能差距。首先，我们从人类视觉基理出发，设计一个专注文本特征的卷积神经网络（Text-CNN）来准确提取场景字符特征。通过构建多任务学习模型，我们把不同层次的文本监督信息（文本轮廓，类别和是否文本）逐层强化到模型训练过程中，使Text-CNN能够更准确地定位场景图片中的字符信息，从而降低其他物体和背景的干扰。接着，在识别方面，我们采用类似的多任务学习机制，设计一个基于词条的特征提取模型（Word-CNN）。最后利用循环LSTM 对连续特征长时间记忆和辨别能力，构建新的词条识别系统。另外，我们还设计了一个双层文本显著性检测算法，以提高文本成分检测的召回率。

项目摘要

本项目以深度学习为主要工具, 研究和开发非限制条件下自然场景文本检测和识别，以及场景分类算法。通过深入分析现有深度模型在提取场景文本特征方面的局限性，我们提出新的深度模型来更有效地提取和识别文本/字符特征，设计一个专注文本特征的卷积神经网络 - Text-CNN 来准确提取场景字符特征。同时，基于最新的通用物体检测框架，提出CTPN和SSTD两个高性能的文本检测算法。在识别方面，我们提出DTRN文本识别算法。在DTRN算法中，我们首次提出CNN+RNN+CTC的场景文本识别框架，大幅提升识别的准确率。整个项目的工作形成一套完整，准确，高效，可工业应用的场景文字检测和识别的技术解决方案。其中，成果中的CTPN检测和CNN+LSTM+CTC识别的解决方案成为当前图像OCR工业界的标准解决方案。项目的相关技术直接应用于华为技术和商汤科技相关产品中，并直接和间接产生营收和利润。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：

发表时间：2019

DOI：10.7544/issn1000-1239.2019.20190386

发表时间：2019

huangweilin的其他基金

相似国自然基金

基于深度强化学习和路径积分特征图的自然场景文本检测与识别

批准号：61673182

批准年份：2016

负责人：黄双萍

学科分类：F0605

资助金额：62.00

项目类别：面上项目

基于深度学习的复杂场景下人体行为识别研究

批准号：61503141

批准年份：2015

负责人：吴秋霞

学科分类：F0605

资助金额：22.00

项目类别：青年科学基金项目

基于深度学习的微表情检测和识别的研究

批准号：61772511

批准年份：2017

负责人：王甦菁

学科分类：F0605

资助金额：68.00

项目类别：面上项目

基于深度学习的多语种自然手写文本识别理论和方法

批准号：61673140

批准年份：2016

负责人：苏统华

学科分类：F0605

资助金额：62.00

项目类别：面上项目

基于深度学习的场景文本检测和识别算法研究及应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

基于改进LinkNet的寒旱区遥感图像河流识别方法

信息熵-保真度联合度量函数的单幅图像去雾方法

肺部肿瘤手术患者中肺功能正常吸烟者和慢阻肺患者的小气道上皮间质转化

基于卷积神经网络的JPEG图像隐写分析参照图像生成方法

huangweilin的其他基金

相似国自然基金