基于弱监督学习的中文古籍识别方法研究

基本信息
批准号:61573355
项目类别:面上项目
资助金额:67.00
负责人:殷飞
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:王大寒,林江毅,王聪,杨学行,何文浩,贺欣,钟钊,郝泽龙,张学龙
关键词:
弱监督学习脱机字符串识别卷积神经网络古籍书写风格自适应
结项摘要

Document recognition technology has wide applications and play an important role in digitalization of historical documents. However, it has gained limited attention in Chinese historical document digitization due to the limitation of performance. Particularly, it performs well only for historical documents with simple layout and regular characters. To improve the performance of Chinese historical document recognition and push forward applications, this project systematically studies the theory and key techniques in Chinese historical document recognition, and to realize effective methods and algorithms. Based on the characteristics of ancient Chinese documents (style variation, frequent touching characters and variant characters), this project proposes a technical framework to historical Chinese document recognition based on weakly supervised learning. The main contents and innovations are as follows: (1) text extraction from historical documents based on graph-based semi-supervised learning; (2) character classifier adaptation based on deep neural networks; (3) variant Chinese character detection and classifier design based on active learning; (4) text line recognition for historical documents based on weakly supervised learning. The proposed techniques will be effective to improve the performance of Chinese historical document recognition and attract attention in the academia.

文档识别技术在古籍的数字化中有着重要和广阔的应用前景。然而,由于技术和性能的限制,目前在中文古籍数字化中,中文文档分析的应用还仅限于版面比较固定、文字比较规范的特定古籍。中文古籍数字化的巨大需求对中文文档分析技术提出了迫切的需求。本项目系统地研究中文古籍识别中的理论和关键技术问题,提出和实现有效的方法和算法,以达到和提高识别性能、推动实用为目的。从古籍文档图像(风格多样、文字粘连、异体字多)的特点出发,提出以弱监督学习为基本思想的技术方案。主要研究内容和创新点包含:(1)基于图的半监督学习的古籍文本提取方法;(2)基于深度神经网络的古籍文字自适应算法;(3)基于主动学习的异体字发现和分类器设计;(4)基于弱标记样本学习的中文古籍文本行识别。提出的方法将有效提高古籍识别的性能并产生学术影响。

项目摘要

文档识别技术在古籍的数字化中有着重要和广阔的应用前景。然而,由于技术和性能的限制,目前在中文古籍数字化中,中文文档分析的应用还仅限于版面比较固定、文字比较规范的特定古籍。本项目系统地研究中文古籍识别中的理论和关键技术问题,从古籍文档图像(风格多样、文字粘连、异体字多)的特点出发,提出以弱监督学习为基本思想的技术方案。主要研究内容和创新点包含:(1)古籍文本提取和版面方法;(2)基于深度神经网络的古籍文字自适应算法;(3)基于弱标记样本学习的中文古籍文本行识别。通过深入的研究,在估计文字提取方面我们提出了基于深度全卷积网络的估计文字提取方法,在古籍文字提取方面取得了良好的效果,同时我们还提出了结合深度卷积网络和调价随机场的文档版面分析算法,在古籍文档版面分析等任务上相对传统算法取得了明显的提高。在古籍文字自适应识别方面,我们提出了基于风格迁移映射的深度分类器自适应和混合风格的书写人自适应方法,在古籍手写数据的自适应识别效果明显;在弱标记中文文本行识别方面,我们将基于过切分框架的中文识别方法扩展到古籍字符串识别,取得了和业界最好结果媲美的效果。另外,我们还建立了一个目前业界最大的古籍文档数据集,该数据集可以支持目前古籍识别方面广泛关注的书写人自适应,增类识别和小样本识别等多个问题。.总的来说,通过本项目的研究,我们提出和实现了一批有效的方法和算法,达到和提高了识别性能、推动实用的目的。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

殷飞的其他基金

相似国自然基金

1

基于弱监督学习的网络社交用户兴趣识别方法研究

批准号:61303103
批准年份:2013
负责人:李岩
学科分类:F0214
资助金额:25.00
项目类别:青年科学基金项目
2

基于弱监督学习的不精确标注水下声音事件识别方法研究

批准号:61806214
批准年份:2018
负责人:王得志
学科分类:F0604
资助金额:21.00
项目类别:青年科学基金项目
3

基于弱监督学习的细粒度中医临床医学实体识别方法研究

批准号:61501063
批准年份:2015
负责人:王亚强
学科分类:F0125
资助金额:19.00
项目类别:青年科学基金项目
4

基于弱监督学习的图像语义分割研究

批准号:61473091
批准年份:2014
负责人:张巍
学科分类:F0604
资助金额:78.00
项目类别:面上项目