Mongolian is one of morphological richer languages. Because of large vocabulary , the development of practical Mongolian handwriting recognition system becomes a big challenge. In this project a grapheme segmentation traditional Mongolian handwriting recognition system based on MDLSTM-CTC which similar to Arabic, English and Chinese is mentioned. Since the problem of large vocabulary, the concept of mixed statistical word model is put forward in the decoding process. Fist, a deep MDLSTM-CTC frame classification model is trained with <x:frame sequence of handwritten image, y:target grapheme sequence>. Secondly, the image to be recognized is framed into the trained model to obtain the probability distribution of grapheme sequence. Finally, the target recognition word is obtained by decoding algorithm with probability distribution of grapheme sequence combined with the word model. For the feature of high out of vocabulary rate, the target sequence is decoded with a morpheme-based statistical word model. In order to play the advantages of different levels of morphemes, the concept of linear mixed word model is proposed. The research achievements have both practical and theoretical significance to this field.
蒙古文属于词性丰富语种之一,数以万计的词汇量对开发实用蒙古文手写识别系统提出了严峻的挑战。本项目以传统蒙古文脱机手写识别为研究对象,借鉴了阿拉伯语、英语和汉语等语言的手写识别研究方法,进行了基于MDLSTM-CTC模型和字素(自定义的构成蒙古文最小字形单位)分割的蒙古文手写识别研究。针对大词汇量问题,在解码过程中提出了混合统计词模型概念。首先用<x:手写图像帧序列,y:目标字素序列>训练深层MDLSTM-CTC,获得帧分类模型。其次把待识别图像分帧输入到已训练模型获得字素概率分布。最后字素概率分布结合词模型经过解码算法获得目标识别词。针对蒙古文高集外词这一特性,项目中提出了基于词素的统计词模型解码算法。为了兼顾不同级别词素的优点,提出两种词模型线性混合概念。本项目研究成果不仅能够为蒙古文字识别、检索和分析等应用奠定基础,并且对相关领域的研究发展具有重要的借鉴意义。
手写识别一直是模式识别的一个重要研究领域,得到了学术界的广泛研究和关注。传统蒙古文脱机手写识别起步较晚、相关研究较少,且蒙古文具有词汇量巨大、书写自由、字符变形严重等特点,这些都给蒙古文脱机手写识别带来了巨大挑战。.公开、权威、大词汇量蒙古文脱机手写数据集是研究和开发蒙古文手写识别的基础,其重要性不言而喻。针对蒙古文手写数据集空白现象,首次组织大量人员书写、校验、发布了包含10万样本的MHW蒙古文单词手写数据集和包含16万多样本的的MOLHW蒙古文联机手写数据集。该数据集的公开对蒙古文的手写识别研究奠定了基础,并起到了推动作用。本项目面向蒙古文手写识别技术的应用需求和基本问题,对字符建模、数据增强和文字解码技术进行了研究,重点探讨了蒙古文集外词处理的关键问题。项目详细分析了蒙古文书写特点、构词方式和编码规则,在此基础上分别研究了蒙古文建模最小单元选取、基于深度模型的字符建模方法、基于字典的解码方法、基于n-gram词模型的集外词处理方法和基于CycleGAN的数据增强等内容。项目研究中通过理论分析和实验对比提出了包含51个字符的蒙古文字素码集合,相较于蒙古文其它字符集合表现出了最好的识别性能。由于蒙古文Unicode编码的独特特点,项目中提出了Unicode编码到字素码的转换算法,并申请了发明专利。针对蒙古文高集外词现象,项目中提出了基于加权有限状态转换机(Weighted Finite-State Transducers,WFST)的K-Best CTC令牌传递算法,降低了原CTC令牌传递算法的时间复杂度。.蒙古文手写识别研究能为蒙古文手写文档识别提供技术支持,这对挖掘和利用蒙古文手写文献资源具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
联机手写化学公式识别研究
联机行草手写汉字识别的方法研究
联机手写蒙文字识别的研究
脱机汉字手写行书的识别方法