开放词汇蒙古文手写识别研究

基本信息
批准号:61763034
项目类别:地区科学基金项目
资助金额:39.00
负责人:范道尔吉
学科分类:
依托单位:内蒙古大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:白凤山,邵允学,武慧娟,吴伟,闫蓉,张文霞,苗苗,苏日娜
关键词:
蒙古文词模型开放词汇递归神经网络手写识别
结项摘要

Mongolian is one of morphological richer languages. Because of large vocabulary , the development of practical Mongolian handwriting recognition system becomes a big challenge. In this project a grapheme segmentation traditional Mongolian handwriting recognition system based on MDLSTM-CTC which similar to Arabic, English and Chinese is mentioned. Since the problem of large vocabulary, the concept of mixed statistical word model is put forward in the decoding process. Fist, a deep MDLSTM-CTC frame classification model is trained with <x:frame sequence of handwritten image, y:target grapheme sequence>. Secondly, the image to be recognized is framed into the trained model to obtain the probability distribution of grapheme sequence. Finally, the target recognition word is obtained by decoding algorithm with probability distribution of grapheme sequence combined with the word model. For the feature of high out of vocabulary rate, the target sequence is decoded with a morpheme-based statistical word model. In order to play the advantages of different levels of morphemes, the concept of linear mixed word model is proposed. The research achievements have both practical and theoretical significance to this field.

蒙古文属于词性丰富语种之一,数以万计的词汇量对开发实用蒙古文手写识别系统提出了严峻的挑战。本项目以传统蒙古文脱机手写识别为研究对象,借鉴了阿拉伯语、英语和汉语等语言的手写识别研究方法,进行了基于MDLSTM-CTC模型和字素(自定义的构成蒙古文最小字形单位)分割的蒙古文手写识别研究。针对大词汇量问题,在解码过程中提出了混合统计词模型概念。首先用<x:手写图像帧序列,y:目标字素序列>训练深层MDLSTM-CTC,获得帧分类模型。其次把待识别图像分帧输入到已训练模型获得字素概率分布。最后字素概率分布结合词模型经过解码算法获得目标识别词。针对蒙古文高集外词这一特性,项目中提出了基于词素的统计词模型解码算法。为了兼顾不同级别词素的优点,提出两种词模型线性混合概念。本项目研究成果不仅能够为蒙古文字识别、检索和分析等应用奠定基础,并且对相关领域的研究发展具有重要的借鉴意义。

项目摘要

手写识别一直是模式识别的一个重要研究领域,得到了学术界的广泛研究和关注。传统蒙古文脱机手写识别起步较晚、相关研究较少,且蒙古文具有词汇量巨大、书写自由、字符变形严重等特点,这些都给蒙古文脱机手写识别带来了巨大挑战。.公开、权威、大词汇量蒙古文脱机手写数据集是研究和开发蒙古文手写识别的基础,其重要性不言而喻。针对蒙古文手写数据集空白现象,首次组织大量人员书写、校验、发布了包含10万样本的MHW蒙古文单词手写数据集和包含16万多样本的的MOLHW蒙古文联机手写数据集。该数据集的公开对蒙古文的手写识别研究奠定了基础,并起到了推动作用。本项目面向蒙古文手写识别技术的应用需求和基本问题,对字符建模、数据增强和文字解码技术进行了研究,重点探讨了蒙古文集外词处理的关键问题。项目详细分析了蒙古文书写特点、构词方式和编码规则,在此基础上分别研究了蒙古文建模最小单元选取、基于深度模型的字符建模方法、基于字典的解码方法、基于n-gram词模型的集外词处理方法和基于CycleGAN的数据增强等内容。项目研究中通过理论分析和实验对比提出了包含51个字符的蒙古文字素码集合,相较于蒙古文其它字符集合表现出了最好的识别性能。由于蒙古文Unicode编码的独特特点,项目中提出了Unicode编码到字素码的转换算法,并申请了发明专利。针对蒙古文高集外词现象,项目中提出了基于加权有限状态转换机(Weighted Finite-State Transducers,WFST)的K-Best CTC令牌传递算法,降低了原CTC令牌传递算法的时间复杂度。.蒙古文手写识别研究能为蒙古文手写文档识别提供技术支持,这对挖掘和利用蒙古文手写文献资源具有重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

范道尔吉的其他基金

相似国自然基金

1

联机手写化学公式识别研究

批准号:61301238
批准年份:2013
负责人:杨巨峰
学科分类:F0116
资助金额:24.00
项目类别:青年科学基金项目
2

联机行草手写汉字识别的方法研究

批准号:69885006
批准年份:1998
负责人:刘迎建
学科分类:F0605
资助金额:13.00
项目类别:专项基金项目
3

联机手写蒙文字识别的研究

批准号:60365001
批准年份:2003
负责人:高光来
学科分类:F0605
资助金额:18.00
项目类别:地区科学基金项目
4

脱机汉字手写行书的识别方法

批准号:69173307
批准年份:1991
负责人:夏莹
学科分类:F0605
资助金额:3.50
项目类别:面上项目