基于多任务卷积神经网络的自然场景图像中汉字的端对端识别

基本信息
批准号:61601184
项目类别:青年科学基金项目
资助金额:19.00
负责人:姜维
学科分类:
依托单位:华北水利水电大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:许亚美,张俊楷,张蕊,韩珂,杨绍禹,陈欢欢
关键词:
端对端识别卷积神经网络汉字自然场景图像多任务
结项摘要

The project researches on Chinese characters in natural scene, and aims to implementing end-to-end Chinese characters recognition in natural scene. Chinese characters recognition in natural scene is not sufficiently studied because of large number of categories of Chinese characters, which brings about three unsolved problems: 1) a huge quantity of training samples are required in light of large number of categoriers of Chinese characters; 2) the classification of scene text image is required for reducing time consumed, computation and difficulty; 3) text candidates generation with high recall and low false positive is required for the reduction of computation and difficulty. In addition, 4) the algorithm is easy to be interfered; 5) several sub-tasks are isolated from each other lack of relationships. In view of the problems as above, the project studies on the key technique as below: 1) automatic generation of man-made samples, automatic labeling of training samples and label rectification based on crowd computing; 2) multi-holistic feature based scene text image classification; 3) text candidates generation based on Characters Proposal; 4) robust multi-task convolutional neural network for Chinese characters.

本项目以自然场景图像中汉字为研究对象,以对其完成端对端识别为研究目标。自然场景中汉字检测与识别问题,没有得到充分的研究,源于汉字的大数量类别的特点。该特点带来三个问题:1)因为汉字类别多,需要大量训练图像,且训练图像的人工标注费时费力;2)需自然场景文字图像分类,减小后续计算量与难度;3)需高召回率与低虚警率的文字候选区域获取方法,减少识别的计算量与难度。此外,自然场景中汉字自动检测识别的研究还存在:4)算法易受干扰;5)算法中多个子任务相互孤立缺乏联系。本项目针对以上问题,结合申请人的前期工作,进行如下关键技术的研究:1)人造样本的自动生成,训练样本的自动标注与基于人肉计算的标注校正;2)基于多整体性(Holistic feature)特征的自然场景文字图像分类;3)基于似字性推荐(Charater Proposal)的文字候选区域获取;4)针对汉字的抗干扰的多任务卷积神经网络的构建。

项目摘要

近年来,深度学习的发展促使计算机视觉技术已经逐步开始落地商用,但计算机对自然场景图像的理解依然无法让人满意。而文字天然具有语义,如果能够对自然场景中的文字能够进行准确地检测与识别,可帮助计算机更好地理解图像。本项目所要解决的就是场景文字的检测与识别问题,经过主持人与团队的努力完成了既定的研究目标。本项目的包含6个研究内容:(1)人造正样本的生成(2)训练样本的自动标注(3)基于人肉计算的标注校正(4)基于整体性特征的自然场景文字的分类(5)基于Character Proposal的文字候选区域获取(6)基于卷积神经网络的自然场景文字的检测与识别。.本项目的研究进展包含5个方面:.(1)数据集的构建.主持人与团队独自构建了包含4000幅场景中英文字的图像数据集(Huashui Text Images in China, 简称HTC),使用文字引擎合成包含100000文本行的生成数据集,与张重生教授合作构建了包含25770幅场景文字图像的ShopSign数据集。.(2)针对文字的自然场景图像的分类.主持人设计了整体性特征结合随机森林分类器,可以判定图像是否包含文字。该方法在多个数据集完成了验证,取得较好效果。.(3)基于YOLOv3与长短期记忆的场景文字检测识别系统.主持人与团队在检测阶段使用YOLOv3检测长条形文本区,然后将文本区聚合;在识别阶段,使用长短期记忆结合CTC完成识别。该方法在HTC数据集取得不错的效果。.(4)基于Character Proposal的文字候选区域获取.主持人与团队使用视觉显著性、整体性特征与笔画特征获取文字候选区域,该方法是一种传统方法,可以有效提高算法准确率与综合性能。.(5).场景文字检测的漏检问题研究.主持人与伙伴合作研究多种模型,发现将多种模型融合,可以较好解决场景文字的漏检问题,该方法在多个不同数据集做了验证。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

姜维的其他基金

批准号:70801022
批准年份:2008
资助金额:19.00
项目类别:青年科学基金项目
批准号:71671052
批准年份:2016
资助金额:47.00
项目类别:面上项目
批准号:61703034
批准年份:2017
资助金额:26.00
项目类别:青年科学基金项目
批准号:21902060
批准年份:2019
资助金额:24.00
项目类别:青年科学基金项目
批准号:31501573
批准年份:2015
资助金额:19.00
项目类别:青年科学基金项目
批准号:71271066
批准年份:2012
资助金额:54.00
项目类别:面上项目
批准号:51605376
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:31502170
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于多任务一体化的端到端场景图像文本识别方法研究

批准号:61703316
批准年份:2017
负责人:朱安娜
学科分类:F0304
资助金额:24.00
项目类别:青年科学基金项目
2

基于深度端到端模型的大场景遥感图像人造目标快速检测方法研究

批准号:41701508
批准年份:2017
负责人:刁文辉
学科分类:D0113
资助金额:25.00
项目类别:青年科学基金项目
3

基于深度卷积神经网络构建场景部件的场景图像分类研究

批准号:61602027
批准年份:2016
负责人:白双
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目
4

自然场景图像中的部分形状识别方法研究

批准号:61401455
批准年份:2014
负责人:范慧杰
学科分类:F0116
资助金额:24.00
项目类别:青年科学基金项目