基于多任务卷积神经网络的自然场景图像中汉字的端对端识别

基本信息

批准号：61601184

项目类别：青年科学基金项目

资助金额：19.00

负责人：姜维

学科分类：

依托单位：华北水利水电大学

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：许亚美,张俊楷,张蕊,韩珂,杨绍禹,陈欢欢

关键词：

端对端识别卷积神经网络汉字自然场景图像多任务

结项摘要

The project researches on Chinese characters in natural scene, and aims to implementing end-to-end Chinese characters recognition in natural scene. Chinese characters recognition in natural scene is not sufficiently studied because of large number of categories of Chinese characters, which brings about three unsolved problems: 1) a huge quantity of training samples are required in light of large number of categoriers of Chinese characters; 2) the classification of scene text image is required for reducing time consumed, computation and difficulty; 3) text candidates generation with high recall and low false positive is required for the reduction of computation and difficulty. In addition, 4) the algorithm is easy to be interfered; 5) several sub-tasks are isolated from each other lack of relationships. In view of the problems as above, the project studies on the key technique as below: 1) automatic generation of man-made samples, automatic labeling of training samples and label rectification based on crowd computing; 2) multi-holistic feature based scene text image classification; 3) text candidates generation based on Characters Proposal; 4) robust multi-task convolutional neural network for Chinese characters.

本项目以自然场景图像中汉字为研究对象，以对其完成端对端识别为研究目标。自然场景中汉字检测与识别问题，没有得到充分的研究，源于汉字的大数量类别的特点。该特点带来三个问题：1）因为汉字类别多，需要大量训练图像，且训练图像的人工标注费时费力；2）需自然场景文字图像分类，减小后续计算量与难度；3）需高召回率与低虚警率的文字候选区域获取方法，减少识别的计算量与难度。此外，自然场景中汉字自动检测识别的研究还存在:4）算法易受干扰；5）算法中多个子任务相互孤立缺乏联系。本项目针对以上问题，结合申请人的前期工作，进行如下关键技术的研究：1）人造样本的自动生成，训练样本的自动标注与基于人肉计算的标注校正；2）基于多整体性(Holistic feature)特征的自然场景文字图像分类；3）基于似字性推荐（Charater Proposal）的文字候选区域获取；4）针对汉字的抗干扰的多任务卷积神经网络的构建。

项目摘要

近年来，深度学习的发展促使计算机视觉技术已经逐步开始落地商用，但计算机对自然场景图像的理解依然无法让人满意。而文字天然具有语义，如果能够对自然场景中的文字能够进行准确地检测与识别，可帮助计算机更好地理解图像。本项目所要解决的就是场景文字的检测与识别问题，经过主持人与团队的努力完成了既定的研究目标。本项目的包含6个研究内容：（1）人造正样本的生成（2）训练样本的自动标注（3）基于人肉计算的标注校正（4）基于整体性特征的自然场景文字的分类（5）基于Character Proposal的文字候选区域获取（6）基于卷积神经网络的自然场景文字的检测与识别。.本项目的研究进展包含5个方面：.（1）数据集的构建.主持人与团队独自构建了包含4000幅场景中英文字的图像数据集（Huashui Text Images in China, 简称HTC），使用文字引擎合成包含100000文本行的生成数据集，与张重生教授合作构建了包含25770幅场景文字图像的ShopSign数据集。.（2）针对文字的自然场景图像的分类.主持人设计了整体性特征结合随机森林分类器，可以判定图像是否包含文字。该方法在多个数据集完成了验证，取得较好效果。.（3）基于YOLOv3与长短期记忆的场景文字检测识别系统.主持人与团队在检测阶段使用YOLOv3检测长条形文本区，然后将文本区聚合；在识别阶段，使用长短期记忆结合CTC完成识别。该方法在HTC数据集取得不错的效果。.（4）基于Character Proposal的文字候选区域获取.主持人与团队使用视觉显著性、整体性特征与笔画特征获取文字候选区域，该方法是一种传统方法，可以有效提高算法准确率与综合性能。.（5）.场景文字检测的漏检问题研究.主持人与伙伴合作研究多种模型，发现将多种模型融合，可以较好解决场景文字的漏检问题，该方法在多个不同数据集做了验证。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.3969/j.issn.1674-0696.2020.10.20

发表时间：2020

DOI：10.11936/bjutxb2021010011

发表时间：2021

姜维的其他基金

批准号：70801022

批准年份：2008

资助金额：19.00

项目类别：青年科学基金项目

批准号：71671052

批准年份：2016

资助金额：47.00

项目类别：面上项目

批准号：61703034

批准年份：2017

资助金额：26.00

项目类别：青年科学基金项目

批准号：21902060

批准年份：2019

资助金额：24.00

项目类别：青年科学基金项目

批准号：31501573

批准年份：2015

资助金额：19.00

项目类别：青年科学基金项目

批准号：71271066

批准年份：2012

资助金额：54.00

项目类别：面上项目

批准号：51605376

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：31502170

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

相似国自然基金

基于多任务一体化的端到端场景图像文本识别方法研究

批准号：61703316

批准年份：2017

负责人：朱安娜

学科分类：F0304

资助金额：24.00

项目类别：青年科学基金项目

基于深度端到端模型的大场景遥感图像人造目标快速检测方法研究

批准号：41701508

批准年份：2017

负责人：刁文辉

学科分类：D0113

资助金额：25.00

项目类别：青年科学基金项目

基于深度卷积神经网络构建场景部件的场景图像分类研究

批准号：61602027

批准年份：2016

负责人：白双

学科分类：F0605

资助金额：20.00

项目类别：青年科学基金项目

自然场景图像中的部分形状识别方法研究

批准号：61401455

批准年份：2014

负责人：范慧杰

学科分类：F0116

资助金额：24.00

项目类别：青年科学基金项目

基于多任务卷积神经网络的自然场景图像中汉字的端对端识别

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

基于改进LinkNet的寒旱区遥感图像河流识别方法

信息熵-保真度联合度量函数的单幅图像去雾方法

含饱和非线性的主动悬架系统自适应控制

城市生活垃圾热值的特征变量选择方法及预测建模

姜维的其他基金

多知识源电子商务推荐方法及其强化学习机制的研究

大规模对地观测卫星组网统筹运控理论与方法

受限条件下列车自适应容错定位方法研究

光敏型手性金属有机框架的制备及其可见光不对称催化烯烃[2+2]光环加成反应性能研究

基于多响应值建模的木糖/组胺美拉德反应动力学研究

面向敏捷卫星组网的协同规划与优化方法研究

石墨烯/蛋白复合软体机器人的光诱导压印三维模塑成型及光驱动调控

基于eDNA分析技术的陕西湑水河流域内川陕哲罗鲑种群分布动态监测

相似国自然基金