基于部件的联机手写藏文音节识别方法研究

基本信息
批准号:61202220
项目类别:青年科学基金项目
资助金额:23.00
负责人:马龙龙
学科分类:
依托单位:中国科学院软件研究所
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:当周才让,诺明花,于新,许海洋,熊维
关键词:
部件音节切分字丁部件生成模型联机手写藏文音节识别集成识别框架
结项摘要

Tibetan information processing technologies play an important role in Tibetan areas. However, because of the limitation of existing on-line handwritten Tibetan recognition algorithms, the performance of continuous handwritten tibetan input method isn't satisfying. We propose an on-line handwritten Tibetan syllable recognition framework based on Tibetan components by analyzing the structure characteristic of Tibetan syllable. The component-based recognition framework selects components as recognition units and combines the advantage of statistical component recognition methods with component-based structural recognition methods. Firstly, A component-based Tibetan syllable segmentation algorithm is presented to solve the stroke connection and serious overlap between characters or components. Secondly, four submodels of integrated syllable recognition framework, that is, component classification model, character-based language model, character-component generation model and geometrical model, are built. Finally, based on syllable over-segmentation results, we adopt integrated segmentation and recognition strategy to integrate these four submodels into a principled recognition framework. We study the algorithms of information fusion and parameter learning for integrating multiple models. The optimal syllable segmentation and recognition result is obtained using the maximum a posteriori (MAP) criterion. Key technologies of the research findings can be used to pen-based mobile devices, and lay the research foundation for on-line handwritten Tibetan document analysis and recognition.

针对藏族地区信息处理技术的重要性,以及当前联机手写藏文识别技术尚不能完全解决支持连续书写的藏文手写输入的问题,本项目以联机手写藏文音节识别为研究对象,通过分析藏文音节的结构特点,以部件为识别基元,结合部件统计识别方法和基于部件的结构识别方法的优点,提出一种基于部件的联机手写藏文音节识别框架。首先,研究基于部件的藏文音节的切分算法,以解决字丁/部件之间粘连和重叠的问题;其次,研究音节识别框架中需要集成的四个子模型(部件分类模型、基于字丁的语言模型、字丁-部件生成模型和几何模型)的构建;最后,基于音节过切分的结果,利用集成切分与识别的思想,将这四个子模型集成到统一的识别框架下,研究多个子模型的信息融合和参数学习方法,根据最大后验准则对切分和识别进行评价,最终得到音节的切分和识别结果。该研究成果中的关键技术可以应用到基于笔式交互的移动设备中,并为联机手写藏文文档的分析与识别奠定研究基础。

项目摘要

随着笔式移动设备的普及与广泛应用,支持连续输入的藏文手写输入法得到越来越多关注,联机手写藏文音节识别算法是实现藏文手写输入法的关键技术。本项目以联机手写藏文音节识别为研究对象,对涉及的关键技术进行了深入研究。研究内容包括:(1)构建了藏文部件模型库,藏文部件提取采用半自动的标定方法,部件模型采用统计方法训练;(2)提出了融合规则和监督学习的联机手写藏文音节切分方法,包括水平方向的字丁切分和垂直方向的部件切分;(3)提出了基于条件随机场的集成音节识别框架,将部件分类模型、语言模型、字丁-部件生成模型和几何模型集成到一个统一识别框架下,最终获得音节的识别结果。本项目研发的关键技术可以应用到基于笔式交互的移动设备中,将促进移动设备的推广与应用;同时本项目的研究为联机手写藏文文档的分析与识别奠定了较好的研究基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018

马龙龙的其他基金

批准号:61772505
批准年份:2017
资助金额:61.00
项目类别:面上项目
批准号:70872108
批准年份:2008
资助金额:23.00
项目类别:面上项目

相似国自然基金

1

词典驱动的联机手写维吾尔文单词识别方法研究

批准号:61462081
批准年份:2014
负责人:玛依热·依布拉音
学科分类:F0605
资助金额:46.00
项目类别:地区科学基金项目
2

联机手写维吾尔文基础数据库及识别方法研究

批准号:61462088
批准年份:2014
负责人:齐向伟
学科分类:F0605
资助金额:47.00
项目类别:地区科学基金项目
3

脱机手写藏文字符识别研究

批准号:61462072
批准年份:2014
负责人:黄鹤鸣
学科分类:F0211
资助金额:47.00
项目类别:地区科学基金项目
4

联机手写化学公式识别研究

批准号:61301238
批准年份:2013
负责人:杨巨峰
学科分类:F0116
资助金额:24.00
项目类别:青年科学基金项目