基于国际编码标准的藏文词语排序算法研究

基本信息
批准号:61163013
项目类别:地区科学基金项目
资助金额:30.00
负责人:边巴旺堆
学科分类:
依托单位:西藏大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:董志诚,王龙业,卓嘎,陈延利,武强,兰萍,姜军,严李强,肖伟
关键词:
构件优先级基字藏文字符优先级结构优先级
结项摘要

基于ISO/IEC10646藏文编码字符集,还是基于国家编码标准扩充集A、B,其排序规则不同于英文和汉文,它不仅在横向具有线性结构,而且在纵向具有叠加结构,它的排序规则不是简单的从构词的第一个元素开始的,而是根据基字开始,并且其它构词元素的优先级也不尽相同,因此藏文的排序规则相当复杂。本项目主要通过研究现代藏文、梵音转写藏文词语的字典序规则,设计出适合藏文字典序的排序算法。首先,判断该词语是由国家编码构成,还是国际编码构成,若国家编码,则将其转换成国际编码标准。其次,判断现代藏文和梵音转写藏文,针对不同的对象,研究不同的排序规则。再次,从单音节中找到基字、前加字、上加字、下加字、元音、后加字及再后加字等藏文特有的构词构件元素。最后,通过藏文结构优先级、构件优先级和字符优先级三种优先级算法对藏文词语的排序规则进行算法设计,且将这些算法集成后形成藏文字典序的整体算法。

项目摘要

藏文排序是通过藏文词语在其基本辅音字符的先后顺序为主线,通过藏文音节的构建元素优先级进行排列的一种方法。该方法是以藏文构字基本准则为出发点,解决藏文音节中识别藏文基字(基本辅音字符)的算法。通过该算法和构字基本准则结合起来实现了识别其它构建元素的方法。在识别音节中的所有构建元素的基础上,对藏文排序中的作用大小和一些规则来定义每个构件元素的优先级级别,最后参照字典排序为模板,设计了一款适合藏文排序的排序算法。该算法采用了一种特定规则库,对于所有藏文音节进入该库比较后得到自己的排序位置,用指针将该音节指向自己获得的位置就能够精确无误的排序出来。通过对藏文21万多短语的语料库进行排序发现,只有首字符不是藏文音节的和个别梵音转写藏文字符外,都与东嘎藏文词典的排序完全吻合,排序正确率超过了99%。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

边巴旺堆的其他基金

相似国自然基金

1

彝文信息处理及标准彝文字符集与编码的研制

批准号:69573026
批准年份:1995
负责人:沙马拉毅
学科分类:F0211
资助金额:6.00
项目类别:面上项目
2

随机排序算法研究

批准号:10471096
批准年份:2004
负责人:唐恒永
学科分类:A0406
资助金额:19.00
项目类别:面上项目
3

基于朴素贝叶斯算法的藏文垃圾短信过滤研究

批准号:61262086
批准年份:2012
负责人:拥措
学科分类:F0206
资助金额:43.00
项目类别:地区科学基金项目
4

面向下一代视频编码标准的高效算法研究

批准号:61672134
批准年份:2016
负责人:朱树元
学科分类:F0210
资助金额:62.00
项目类别:面上项目