联机手写维吾尔文基础数据库及识别方法研究

基本信息
批准号:61462088
项目类别:地区科学基金项目
资助金额:47.00
负责人:齐向伟
学科分类:
依托单位:新疆师范大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:栾静,杨勇,热孜万古丽,彭成,艾斯卡尔,约尔尼萨,杨建萍,艾斯木比提
关键词:
识别后处理切分与识别联机手写识别维吾尔文手写体数据库
结项摘要

With the development of computer recognition technology and mobile application, the handwriting input software both at home and abroad dominates the market rapidly. Although Uighur is one of the official languages in Xinjiang, its Handwriting recognition technology is still lagging behind and the text input system still stays in the phase of keyboard coding. On the basis of Chinese-English, Arabic and other handwriting recognition technology and the previous studies, this project starts from the structure of Uyghur language and script, characteristics of word-formation and input habits etc., to study the influence of adhesion language on handwriting input recognition so as to establish a large-scale and standard underlying database for the samples of online handwritten form of Uighur. And then, study the model of segmentation and multi-queue elements' consolidation for Uighur characters with regular outline. According to the features of Uighur, improving neutral network recognition device of LVQ, combining the primitive recognition algorithm based on the decomposition of character element and self-adaptive fusion, we can realize the high efficient recognition of Uighur by linking categorizer, and we can get the crucial techniques such as disposal after identification combining initial statistics with rule and establishment of language models. Through this research, we hope to make contributions to the development of multilingual information technology in Xinjiang and the strategy of opening up to the west of our autonomous region.

随着计算机识别技术和移动应用的发展,国内外的手写输入软件迅速占据了市场。然而,维吾尔语作为新疆维吾尔自治区的官方语言之一,目前手写技术的发展仍然滞后,文字输入还停留在键盘编码阶段。本项目在中英文、阿拉伯文等手写识别技术和课题组前期研究基础上,从维吾尔语言文字的结构、构词特点和输入习惯等特征出发,研究黏着性语言对手写输入识别的影响,建立标准无约束的大规模维吾尔文联机手写体样本基础数据库,并以此为基础,研究基于轮廓特征规则的维吾尔文字符粘连体切分和多队列基元合并模型;根据维吾尔语的特点,改进现有LVQ神经网络识别器,研究基于字符基元分解和自适应融合的基元识别算法,通过分类器并联实现维吾尔文字符的高效识别;初步研究统计与规则相结合的维吾尔文识别后处理及语言模型的建立技术。希望通过本项目的研究,为新疆多语种信息技术发展以及自治区向西辐射开放的战略规划做出一些贡献。

项目摘要

本项目从维吾尔文的结构、单词特点和书写习惯等特征出发,深入研究了粘连文字的联机手写识别技术,特别是无约束的维吾尔文联机手写体样本数据库的建立和联机手写维吾尔文的符号切分和识别方法。针对以上研究的重点,我们给出了相应的解决方案,主要成果包括以下几点:(1)完成了一定规模的样本库采集整理工作。本项目建立了一个无约束的维吾尔文联机手写体样本基础数据库,给出了样本数据库的系统总体架构和文件存取格式,并采集了样本数据。通过基本的数据库整理算法,对样本进行了加工处理,通过手写样本的置信度,数据样本经过计算根据置信度重新排序,为下一步的工作提供了思路和操作方法。(2)提出了应用最小距离分类器和MQDF分类器,结合基元识别,应用分类器融合策略提高符号识别率的算法。(3)提出了维吾尔文符号切分的基本算法。应用基于最小生成树的维吾尔文字符粘连体切分和多队列基元合并模型来提高切分效率,实验证明,该方法大大提高了系统识别率。(4)在维吾尔文识别后处理方面开展了初步研究。首先本项目对部分常用词语料进行了细致的频率统计工作,使用一阶马尔科夫模型,以及隐马尔科夫模型方法,采用Viterbi动态规划搜索算法,获取系统最优字符序列;另外本项目广泛收集和整理了维吾尔文的拼写规则,并形成了规则知识库。(5)初步构建了算法的原型系统。为了验证这些切分和识别技术的性能以及对数据库中的样本数进行评测,本项目设计了三个代表性实验进行了测试分析,得出了一些实验结论。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

齐向伟的其他基金

相似国自然基金

1

词典驱动的联机手写维吾尔文单词识别方法研究

批准号:61462081
批准年份:2014
负责人:玛依热·依布拉音
学科分类:F0605
资助金额:46.00
项目类别:地区科学基金项目
2

联机手写新疆维吾尔文字符识别研究

批准号:60863009
批准年份:2008
负责人:哈力木拉提·买买提
学科分类:F0211
资助金额:22.00
项目类别:地区科学基金项目
3

维吾尔文手写签名识别与验证的关键技术研究

批准号:61163028
批准年份:2011
负责人:库尔班·吾布力
学科分类:F0605
资助金额:52.00
项目类别:地区科学基金项目
4

基于部件的联机手写藏文音节识别方法研究

批准号:61202220
批准年份:2012
负责人:马龙龙
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目