中亚诸语言形态分析理论与方法研究

基本信息
批准号:61762084
项目类别:地区科学基金项目
资助金额:40.00
负责人:吐尔根·依布拉音
学科分类:
依托单位:新疆大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:阿孜古丽·夏力甫,加米拉·吾守尔,瓦依提•阿不力孜,秦继伟,瓦力斯江•帕尔哈提,田亮,伊克拉木·伊力哈木,吴浩
关键词:
资源迁移中亚诸语言黏着语言形态分析
结项摘要

Most of the central Asian languages belongs to Altaic language family Turkic group, which regarded as morphological complex languages. Morphological analysis for agglutinative and low resource language is difficult problem in natural language processing. And Central Asian language processing study of our country is lagging behind, Uyghur, Kazakh natural language processing has just begun. Therefore, our project’s main goal is how to learn from existing theories at home and abroad for central Asian language computation theory which applicable to central Asian languages characteristics. These theories should be able to describe and analyze the structure and morphology of various central Asian languages. This research project contents include: 1) construction of various central Asian language resources; 2) migrate resources for Central Asia languages 3) propose theoretical model of deep morphological analysis for Central Asian languages; 5) Unified morphological analyses models and demonstration platform. The project has important scientific significance and application value for the exploration of the cognitive mechanisms of human language understanding, development of Chinese and Central Asian language information technology and Implementation of the national "Silk Road Economic Zone" development strategy.

中亚诸语言属于阿尔泰语系的突厥语族,属于形态复杂的语言。资源稀缺的形态复杂语言形态分析是自然语言处理研究的一个难点。且我国关于中亚诸语言处理研究相对滞后,维吾尔语、哈萨克语自然语言处理领域的研究才刚刚起步。因此,如何借鉴国内外已有的理论和方法,针对中亚诸语言自身的特点和规律,建立一套适用于中亚诸多语言结构描述和形态分析的、可计算方法体系将是本项目研究的主要目标。研究内容包括: 1)中亚诸语言资源建设;2)中亚诸多语言资源迁移 3)深层次的形态分析研究;4)构建中亚诸多语言统一语言分析模型以及展示平台。本项目研究对于探索人类语言理解的认知机理,推动中亚诸多语言信息技术的发展,对实施国家“丝绸之路经济带”发展战略,具有重要的科学意义和应用价值。

项目摘要

中亚诸语言大多属于形态丰富且资源匮乏的黏着语,黏着语主要通过词干附加若干词缀的形式构词,因此黏着语词汇量庞大,尤其在资源匮乏的情况下,形态丰富性更易出现数据稀疏问题,严重影响下游任务。本项目围绕黏着语的形态丰富性,以维吾尔语、哈萨克语和乌兹别克语为研究对象,采用从浅到深的方式开展了一系列的研究,研究内容主要包括四部分:(1)资源自动获取:获取在线数据资源并进行语种识别、分词、分句等预处理研究(2)数据资源的加工与标注:采用人工标注、共性分析和实例迁移的方法构建一定规模的标注数据集(3)深层次的形态分析方法研究:围绕黏着语的词法特点,主要探索了基于不同策略的词干提取、形态切分、音节切分、形态生成以及应用研究等任务。(4)多语言统一语言分析展示平台:采用统一标注规范、统一的数据资源,集成形态分析相关技术,建立了一套适用于中亚诸语言词法分析的通用性展示平台。通过以上研究成果,可有效解决资源匮乏条件下中亚诸语言的形态丰富性,大大缓解了现有黏着语自然语言处理面临的瓶颈问题,为解决中亚诸多语言智能信息处理的关键性问题提供技术支持。项目研究期间共培养硕士博士研究生共11名,发表EI检索论文6篇、中文核刊论文15篇,申请专利3项,获批软件著作权3项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

吐尔根·依布拉音的其他基金

批准号:61063026
批准年份:2010
资助金额:25.00
项目类别:地区科学基金项目
批准号:60663006
批准年份:2006
资助金额:25.00
项目类别:地区科学基金项目

相似国自然基金

1

语言信息处理的理论与实现方法研究

批准号:68773002
批准年份:1987
负责人:黄建烁
学科分类:F0211
资助金额:2.00
项目类别:面上项目
2

基于犹豫模糊语言信息的定性决策理论与方法

批准号:71501135
批准年份:2015
负责人:廖虎昌
学科分类:G0103
资助金额:17.40
项目类别:青年科学基金项目
3

形态分析方法研究

批准号:29235100
批准年份:1992
负责人:单孝全
学科分类:B04
资助金额:37.00
项目类别:重点项目
4

语言竞争、濒危与保护的社会仿真理论与方法

批准号:61364022
批准年份:2013
负责人:毕贵红
学科分类:F0302
资助金额:45.00
项目类别:地区科学基金项目