联机手写维吾尔文基础数据库及识别方法研究

基本信息

批准号：61462088

项目类别：地区科学基金项目

资助金额：47.00

负责人：齐向伟

学科分类：

依托单位：新疆师范大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：栾静,杨勇,热孜万古丽,彭成,艾斯卡尔,约尔尼萨,杨建萍,艾斯木比提

关键词：

识别后处理切分与识别联机手写识别维吾尔文手写体数据库

结项摘要

With the development of computer recognition technology and mobile application, the handwriting input software both at home and abroad dominates the market rapidly. Although Uighur is one of the official languages in Xinjiang, its Handwriting recognition technology is still lagging behind and the text input system still stays in the phase of keyboard coding. On the basis of Chinese-English, Arabic and other handwriting recognition technology and the previous studies, this project starts from the structure of Uyghur language and script, characteristics of word-formation and input habits etc., to study the influence of adhesion language on handwriting input recognition so as to establish a large-scale and standard underlying database for the samples of online handwritten form of Uighur. And then, study the model of segmentation and multi-queue elements' consolidation for Uighur characters with regular outline. According to the features of Uighur, improving neutral network recognition device of LVQ, combining the primitive recognition algorithm based on the decomposition of character element and self-adaptive fusion, we can realize the high efficient recognition of Uighur by linking categorizer, and we can get the crucial techniques such as disposal after identification combining initial statistics with rule and establishment of language models. Through this research, we hope to make contributions to the development of multilingual information technology in Xinjiang and the strategy of opening up to the west of our autonomous region.

随着计算机识别技术和移动应用的发展，国内外的手写输入软件迅速占据了市场。然而，维吾尔语作为新疆维吾尔自治区的官方语言之一，目前手写技术的发展仍然滞后，文字输入还停留在键盘编码阶段。本项目在中英文、阿拉伯文等手写识别技术和课题组前期研究基础上，从维吾尔语言文字的结构、构词特点和输入习惯等特征出发，研究黏着性语言对手写输入识别的影响，建立标准无约束的大规模维吾尔文联机手写体样本基础数据库，并以此为基础，研究基于轮廓特征规则的维吾尔文字符粘连体切分和多队列基元合并模型；根据维吾尔语的特点，改进现有LVQ神经网络识别器，研究基于字符基元分解和自适应融合的基元识别算法，通过分类器并联实现维吾尔文字符的高效识别；初步研究统计与规则相结合的维吾尔文识别后处理及语言模型的建立技术。希望通过本项目的研究，为新疆多语种信息技术发展以及自治区向西辐射开放的战略规划做出一些贡献。

项目摘要

本项目从维吾尔文的结构、单词特点和书写习惯等特征出发，深入研究了粘连文字的联机手写识别技术，特别是无约束的维吾尔文联机手写体样本数据库的建立和联机手写维吾尔文的符号切分和识别方法。针对以上研究的重点，我们给出了相应的解决方案，主要成果包括以下几点：（1）完成了一定规模的样本库采集整理工作。本项目建立了一个无约束的维吾尔文联机手写体样本基础数据库，给出了样本数据库的系统总体架构和文件存取格式，并采集了样本数据。通过基本的数据库整理算法，对样本进行了加工处理，通过手写样本的置信度，数据样本经过计算根据置信度重新排序，为下一步的工作提供了思路和操作方法。（2）提出了应用最小距离分类器和MQDF分类器，结合基元识别，应用分类器融合策略提高符号识别率的算法。（3）提出了维吾尔文符号切分的基本算法。应用基于最小生成树的维吾尔文字符粘连体切分和多队列基元合并模型来提高切分效率，实验证明，该方法大大提高了系统识别率。（4）在维吾尔文识别后处理方面开展了初步研究。首先本项目对部分常用词语料进行了细致的频率统计工作，使用一阶马尔科夫模型，以及隐马尔科夫模型方法，采用Viterbi动态规划搜索算法，获取系统最优字符序列；另外本项目广泛收集和整理了维吾尔文的拼写规则，并形成了规则知识库。（5）初步构建了算法的原型系统。为了验证这些切分和识别技术的性能以及对数据库中的样本数进行评测，本项目设计了三个代表性实验进行了测试分析，得出了一些实验结论。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3969/j.issn.1001-9731.2021.11.009

发表时间：2021

DOI：

发表时间：2017

DOI：

发表时间：2022

DOI：10.3901/JME.2019.01.032

发表时间：2019

齐向伟的其他基金

相似国自然基金

词典驱动的联机手写维吾尔文单词识别方法研究

批准号：61462081

批准年份：2014

负责人：玛依热·依布拉音

学科分类：F0605

资助金额：46.00

项目类别：地区科学基金项目

联机手写新疆维吾尔文字符识别研究

批准号：60863009

批准年份：2008

负责人：哈力木拉提·买买提

学科分类：F0211

资助金额：22.00

项目类别：地区科学基金项目

维吾尔文手写签名识别与验证的关键技术研究

批准号：61163028

批准年份：2011

负责人：库尔班·吾布力

学科分类：F0605

资助金额：52.00

项目类别：地区科学基金项目

基于部件的联机手写藏文音节识别方法研究

批准号：61202220

批准年份：2012

负责人：马龙龙

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

联机手写维吾尔文基础数据库及识别方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于改进LinkNet的寒旱区遥感图像河流识别方法

制冷与空调用纳米流体研究进展

基于小波高阶统计量的数字图像来源取证方法

融合字符串特征的维吾尔语形态切分

并联机构驱动力优化配置方法及应用研究

齐向伟的其他基金

相似国自然基金