基于部件的联机手写藏文音节识别方法研究

基本信息

批准号：61202220

项目类别：青年科学基金项目

资助金额：23.00

负责人：马龙龙

学科分类：

依托单位：中国科学院软件研究所

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：当周才让,诺明花,于新,许海洋,熊维

关键词：

部件音节切分字丁部件生成模型联机手写藏文音节识别集成识别框架

结项摘要

Tibetan information processing technologies play an important role in Tibetan areas. However, because of the limitation of existing on-line handwritten Tibetan recognition algorithms, the performance of continuous handwritten tibetan input method isn't satisfying. We propose an on-line handwritten Tibetan syllable recognition framework based on Tibetan components by analyzing the structure characteristic of Tibetan syllable. The component-based recognition framework selects components as recognition units and combines the advantage of statistical component recognition methods with component-based structural recognition methods. Firstly, A component-based Tibetan syllable segmentation algorithm is presented to solve the stroke connection and serious overlap between characters or components. Secondly, four submodels of integrated syllable recognition framework, that is, component classification model, character-based language model, character-component generation model and geometrical model, are built. Finally, based on syllable over-segmentation results, we adopt integrated segmentation and recognition strategy to integrate these four submodels into a principled recognition framework. We study the algorithms of information fusion and parameter learning for integrating multiple models. The optimal syllable segmentation and recognition result is obtained using the maximum a posteriori (MAP) criterion. Key technologies of the research findings can be used to pen-based mobile devices, and lay the research foundation for on-line handwritten Tibetan document analysis and recognition.

针对藏族地区信息处理技术的重要性，以及当前联机手写藏文识别技术尚不能完全解决支持连续书写的藏文手写输入的问题，本项目以联机手写藏文音节识别为研究对象，通过分析藏文音节的结构特点，以部件为识别基元，结合部件统计识别方法和基于部件的结构识别方法的优点，提出一种基于部件的联机手写藏文音节识别框架。首先，研究基于部件的藏文音节的切分算法，以解决字丁/部件之间粘连和重叠的问题；其次，研究音节识别框架中需要集成的四个子模型（部件分类模型、基于字丁的语言模型、字丁-部件生成模型和几何模型）的构建；最后，基于音节过切分的结果，利用集成切分与识别的思想，将这四个子模型集成到统一的识别框架下，研究多个子模型的信息融合和参数学习方法，根据最大后验准则对切分和识别进行评价，最终得到音节的切分和识别结果。该研究成果中的关键技术可以应用到基于笔式交互的移动设备中，并为联机手写藏文文档的分析与识别奠定研究基础。

项目摘要

随着笔式移动设备的普及与广泛应用，支持连续输入的藏文手写输入法得到越来越多关注，联机手写藏文音节识别算法是实现藏文手写输入法的关键技术。本项目以联机手写藏文音节识别为研究对象，对涉及的关键技术进行了深入研究。研究内容包括：（1）构建了藏文部件模型库，藏文部件提取采用半自动的标定方法，部件模型采用统计方法训练；（2）提出了融合规则和监督学习的联机手写藏文音节切分方法，包括水平方向的字丁切分和垂直方向的部件切分；（3）提出了基于条件随机场的集成音节识别框架，将部件分类模型、语言模型、字丁-部件生成模型和几何模型集成到一个统一识别框架下，最终获得音节的识别结果。本项目研发的关键技术可以应用到基于笔式交互的移动设备中，将促进移动设备的推广与应用；同时本项目的研究为联机手写藏文文档的分析与识别奠定了较好的研究基础。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

马龙龙的其他基金

批准号：61772505

批准年份：2017

资助金额：61.00

项目类别：面上项目

批准号：70872108

批准年份：2008

资助金额：23.00

项目类别：面上项目

相似国自然基金

词典驱动的联机手写维吾尔文单词识别方法研究

批准号：61462081

批准年份：2014

负责人：玛依热·依布拉音

学科分类：F0605

资助金额：46.00

项目类别：地区科学基金项目

联机手写维吾尔文基础数据库及识别方法研究

批准号：61462088

批准年份：2014

负责人：齐向伟

学科分类：F0605

资助金额：47.00

项目类别：地区科学基金项目

脱机手写藏文字符识别研究

批准号：61462072

批准年份：2014

负责人：黄鹤鸣

学科分类：F0211

资助金额：47.00

项目类别：地区科学基金项目

联机手写化学公式识别研究

批准号：61301238

批准年份：2013

负责人：杨巨峰

学科分类：F0116

资助金额：24.00

项目类别：青年科学基金项目

基于部件的联机手写藏文音节识别方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

水中溴代消毒副产物的生成综述

马龙龙的其他基金

自然场景中多模态图像内容的文本描述方法研究

大型赛事服务平台的即时构造方法研究

相似国自然基金