我国多民族文字文化信息化关系国家统一和民族团结,如互联网上大量图片形式出现的藏维文信息检索过滤等迫切需求。针对我国多民族文字印刷及手写文档识别及机器翻译的理论和方法的关键科学问题,构建多民族文字识别、文档图像分析和内容理解理论体系。深入研究蒙、藏、维文的印刷及限定手写文档图像识别理解的综合优化计算模型,实现连写、强变形的蒙藏维文档的无切分识别算法,重点探索扩展统计与结构相结合词识别,结合蒙藏维上下文相关的全局优化字符串识别计算理论模型和算法。发展基于蒙藏维文档词识别的、蒙藏维文与汉语之间,融合语料库和规则的、基于词基元翻译的具有一定可懂度的机器翻译理论和方法,探索基于识别词、短语基元的蒙藏维文至汉语的跨语言理解理论和算法。实现从蒙藏维文档图象文字识别信息获取到汉语翻译理解的无缝信息整合系统。建立以汉语呈现的统一平台跨语言蒙藏维印刷及手写民族文档识别及内容翻译理解系统。
本项目“多民族文字识别及理解的理论与方法研究”,目标为研发国家迫切需要的民族文字识别与理解技术及系统,主要解决了民族文字全局优化无切分文档识别、民族文字对汉语的翻译理解,以及基于蒙藏维文档识别理解的跨文种一体化平台的构建等难题。项目研究主要创新及工作如下: .1.在民族文字识别方面,克服传统上字符切分和字符识别分开研究的弊端,提出并实现识别驱动的基于隐含马尔可夫模型(HMM)的“无切分”民族文字文档识别。.(1)提出了多种民族文字字形结构特征提取新方法,并首创基于序列线性鉴别分析的特征降维方法。.(2)在模型训练方面,提出了基于状态信息熵与距离度量的模型状态优化方法、基于聚类算法的引导式模型预训练策略以及低资源样本迁移学习方法。.(3)在模型解码方面,提出了基于文字书写规则的限制性隐含马尔可夫模型(HMM)解码网络,通过利用语言知识可提高不限词汇集合的识别解码准确率。..2.在以汉语为目标语言的民族文字翻译理解方面,提出并实现了民族文字与汉语对照的关键词检索,以及维汉、藏汉、蒙汉全文翻译理解方法。.(1)在维吾尔文理解方面,提出了基于维吾尔语特点的词干、词缀维汉翻译理解训练方法,将维吾尔语文本分解成词干、词缀形式,并以此为理解的基本单元,缓解了统计机器翻译中数据稀疏问题。.(2)在藏文理解方面,提出采用基于条件随机场及紧缩词处理模型的藏文分词方法、最大熵藏文词性标注模型以及改进的短语抽取等方法,最终实现了基于短语的藏汉翻译理解方法。.(3)在蒙古文理解方面,提出并实现了基于统计和规则的蒙汉翻译理解方法。..3.首次提出和实现民族文字识别与民汉对照关键词检索、基于短语的民汉全文翻译的识别理解无缝连接,解决了民族文字文档经扫描图像识别输入计算机、以及将汉语作为目标语言的跨文种识别理解的难题。实现的系统具有单机版和网络平台(http://www.netocr.com:8888/ocr/),使系统在互联网上加以推广应用。..4.在资源建设方面,建立了民族文字识别研究所需的标准样本库,以及民族文字理解研究所需的民族文字与汉语对照的词典及平行语料库等资源。..研究成果可广泛应用于民族文字办公自动化、电子出版、互联网信息资源建设等领域,将在我国民族文化信息化事业中发挥重要作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于Pickering 乳液的分子印迹技术
隐喻识别与理解的理论与方法研究
面向网络信息安全的图像视频中的文字语义理解理论与方法
少数民族文字识别的理论和方法的研究
藏文字型生成与识别