The project researches on Chinese characters in natural scene, and aims to implementing end-to-end Chinese characters recognition in natural scene. Chinese characters recognition in natural scene is not sufficiently studied because of large number of categories of Chinese characters, which brings about three unsolved problems: 1) a huge quantity of training samples are required in light of large number of categoriers of Chinese characters; 2) the classification of scene text image is required for reducing time consumed, computation and difficulty; 3) text candidates generation with high recall and low false positive is required for the reduction of computation and difficulty. In addition, 4) the algorithm is easy to be interfered; 5) several sub-tasks are isolated from each other lack of relationships. In view of the problems as above, the project studies on the key technique as below: 1) automatic generation of man-made samples, automatic labeling of training samples and label rectification based on crowd computing; 2) multi-holistic feature based scene text image classification; 3) text candidates generation based on Characters Proposal; 4) robust multi-task convolutional neural network for Chinese characters.
本项目以自然场景图像中汉字为研究对象,以对其完成端对端识别为研究目标。自然场景中汉字检测与识别问题,没有得到充分的研究,源于汉字的大数量类别的特点。该特点带来三个问题:1)因为汉字类别多,需要大量训练图像,且训练图像的人工标注费时费力;2)需自然场景文字图像分类,减小后续计算量与难度;3)需高召回率与低虚警率的文字候选区域获取方法,减少识别的计算量与难度。此外,自然场景中汉字自动检测识别的研究还存在:4)算法易受干扰;5)算法中多个子任务相互孤立缺乏联系。本项目针对以上问题,结合申请人的前期工作,进行如下关键技术的研究:1)人造样本的自动生成,训练样本的自动标注与基于人肉计算的标注校正;2)基于多整体性(Holistic feature)特征的自然场景文字图像分类;3)基于似字性推荐(Charater Proposal)的文字候选区域获取;4)针对汉字的抗干扰的多任务卷积神经网络的构建。
近年来,深度学习的发展促使计算机视觉技术已经逐步开始落地商用,但计算机对自然场景图像的理解依然无法让人满意。而文字天然具有语义,如果能够对自然场景中的文字能够进行准确地检测与识别,可帮助计算机更好地理解图像。本项目所要解决的就是场景文字的检测与识别问题,经过主持人与团队的努力完成了既定的研究目标。本项目的包含6个研究内容:(1)人造正样本的生成(2)训练样本的自动标注(3)基于人肉计算的标注校正(4)基于整体性特征的自然场景文字的分类(5)基于Character Proposal的文字候选区域获取(6)基于卷积神经网络的自然场景文字的检测与识别。.本项目的研究进展包含5个方面:.(1)数据集的构建.主持人与团队独自构建了包含4000幅场景中英文字的图像数据集(Huashui Text Images in China, 简称HTC),使用文字引擎合成包含100000文本行的生成数据集,与张重生教授合作构建了包含25770幅场景文字图像的ShopSign数据集。.(2)针对文字的自然场景图像的分类.主持人设计了整体性特征结合随机森林分类器,可以判定图像是否包含文字。该方法在多个数据集完成了验证,取得较好效果。.(3)基于YOLOv3与长短期记忆的场景文字检测识别系统.主持人与团队在检测阶段使用YOLOv3检测长条形文本区,然后将文本区聚合;在识别阶段,使用长短期记忆结合CTC完成识别。该方法在HTC数据集取得不错的效果。.(4)基于Character Proposal的文字候选区域获取.主持人与团队使用视觉显著性、整体性特征与笔画特征获取文字候选区域,该方法是一种传统方法,可以有效提高算法准确率与综合性能。.(5).场景文字检测的漏检问题研究.主持人与伙伴合作研究多种模型,发现将多种模型融合,可以较好解决场景文字的漏检问题,该方法在多个不同数据集做了验证。
{{i.achievement_title}}
数据更新时间:2023-05-31
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
内点最大化与冗余点控制的小型无人机遥感图像配准
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于多任务一体化的端到端场景图像文本识别方法研究
基于深度端到端模型的大场景遥感图像人造目标快速检测方法研究
基于深度卷积神经网络构建场景部件的场景图像分类研究
自然场景图像中的部分形状识别方法研究