基于多任务一体化的端到端场景图像文本识别方法研究

基本信息
批准号:61703316
项目类别:青年科学基金项目
资助金额:24.00
负责人:朱安娜
学科分类:
依托单位:武汉理工大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:段鹏飞,李毕祥,荣毅,陈振东,王晓东
关键词:
深度神经网络场景文本定位场景文本识别端到端式
结项摘要

Most of current scene text extraction methods are not robust for text with arbitrary orientation and multi-language. To tackle this problem, this project proposes a holistic, multi-task prediction based end-to-end scene text recognition model. In this model, a deep neural network is built in text detection step for regressing the text regions with various font, size and orientation, and predicting the language holistically. Based on the language categories, the text regions are inputted to a scene text recognition network which regressing the character regions and labeling probabilities simultaneously. Then, the results are combined with language model for text recognition. The text recognition result and optimized text region can be feed backed to text detection, which can boost the overall performance of scene text recognition. Additionally, we propose a method to generate synthetic scene text images and the corresponding ground truth labeling in the project, for the demand of big date to train the deep neural network. Several paper that relative to this research will be submitted to some well known journals or conferences. Meanwhile, we plan to explore more applications of this work.

针对现有的自然场景文本识别方法对任意方向和不同语言适应性差的问题,本项目拟构建基于多任务一体化的端到端场景文本识别模型,来应对场景文本图像中不同方向和语言的文本定位和识别任务。该模型首先利用构建于深度神经网络之上适应不同字体、大小和方位的文本区域方位回归和语言预测一体化网络来进行文本定位,然后采用分类决策机制对不同语种文本区域分类,并输入基于不同语言系统的字符识别网络,同时完成字符方位回归和识别概率估计任务,利用方位和识别信息并结合语言模型完成文本识别。该模型将文本识别及文本区域定位优化的结果反馈至场景图像文本定位阶段,以进一步提高整体文本定位和识别的性能。此外,为避免人工标注的低效性,本项目提出了一个场景文本训练样本图像合成以及自动生成相应真值标注的方法,同时能适应深度神经网络对大数据的需求。本项目研究拟在国内外知名期刊和会议上发表论文4-7篇,并拓展基于场景文本的应用研究。

项目摘要

针对现有的自然场景文本识别方法对任意方向和不同语言适应性差的问题,本项目构建基于多任务一体化的端到端场景文本识别模型,来应对场景文本图像中不同方向和语言的文本定位和识别任务。该模型首先利用构建于深度神经网络之上适应不同字体、大小和方位的文本区域方位回归网络来进行文本定位,同时完成字符方位回归和识别概率估计任务,利用方位和识别信息并结合语言模型完成文本识别。此外,为避免人工标注的低效性,本项目提出了一个场景文本训练样本图像合成方法,同时能适应深度神经网络对大数据的需求。本项目研究已在国内外知名期刊和会议上共发表论文8篇,并拓展基于场景文本的应用研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

朱安娜的其他基金

相似国自然基金

1

基于多任务卷积神经网络的自然场景图像中汉字的端对端识别

批准号:61601184
批准年份:2016
负责人:姜维
学科分类:F0116
资助金额:19.00
项目类别:青年科学基金项目
2

基于深度端到端模型的大场景遥感图像人造目标快速检测方法研究

批准号:41701508
批准年份:2017
负责人:刁文辉
学科分类:D0113
资助金额:25.00
项目类别:青年科学基金项目
3

基于端到端统一建模的图像内容问答算法研究

批准号:61702143
批准年份:2017
负责人:余宙
学科分类:F0210
资助金额:28.00
项目类别:青年科学基金项目
4

基于端到端深度学习框架的文本无关副语言语音属性识别研究

批准号:61773413
批准年份:2017
负责人:李明
学科分类:F0605
资助金额:60.00
项目类别:面上项目