中亚诸语言形态分析理论与方法研究

基本信息

批准号：61762084

项目类别：地区科学基金项目

资助金额：40.00

负责人：吐尔根·依布拉音

学科分类：

依托单位：新疆大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：阿孜古丽·夏力甫,加米拉·吾守尔,瓦依提•阿不力孜,秦继伟,瓦力斯江•帕尔哈提,田亮,伊克拉木·伊力哈木,吴浩

关键词：

资源迁移中亚诸语言黏着语言形态分析

结项摘要

Most of the central Asian languages belongs to Altaic language family Turkic group, which regarded as morphological complex languages. Morphological analysis for agglutinative and low resource language is difficult problem in natural language processing. And Central Asian language processing study of our country is lagging behind, Uyghur, Kazakh natural language processing has just begun. Therefore, our project’s main goal is how to learn from existing theories at home and abroad for central Asian language computation theory which applicable to central Asian languages characteristics. These theories should be able to describe and analyze the structure and morphology of various central Asian languages. This research project contents include: 1) construction of various central Asian language resources; 2) migrate resources for Central Asia languages 3) propose theoretical model of deep morphological analysis for Central Asian languages; 5) Unified morphological analyses models and demonstration platform. The project has important scientific significance and application value for the exploration of the cognitive mechanisms of human language understanding, development of Chinese and Central Asian language information technology and Implementation of the national "Silk Road Economic Zone" development strategy.

中亚诸语言属于阿尔泰语系的突厥语族,属于形态复杂的语言。资源稀缺的形态复杂语言形态分析是自然语言处理研究的一个难点。且我国关于中亚诸语言处理研究相对滞后，维吾尔语、哈萨克语自然语言处理领域的研究才刚刚起步。因此，如何借鉴国内外已有的理论和方法，针对中亚诸语言自身的特点和规律，建立一套适用于中亚诸多语言结构描述和形态分析的、可计算方法体系将是本项目研究的主要目标。研究内容包括: 1）中亚诸语言资源建设;2）中亚诸多语言资源迁移 3）深层次的形态分析研究;4）构建中亚诸多语言统一语言分析模型以及展示平台。本项目研究对于探索人类语言理解的认知机理，推动中亚诸多语言信息技术的发展，对实施国家“丝绸之路经济带”发展战略，具有重要的科学意义和应用价值。

项目摘要

中亚诸语言大多属于形态丰富且资源匮乏的黏着语，黏着语主要通过词干附加若干词缀的形式构词，因此黏着语词汇量庞大，尤其在资源匮乏的情况下，形态丰富性更易出现数据稀疏问题，严重影响下游任务。本项目围绕黏着语的形态丰富性，以维吾尔语、哈萨克语和乌兹别克语为研究对象，采用从浅到深的方式开展了一系列的研究，研究内容主要包括四部分：（1）资源自动获取：获取在线数据资源并进行语种识别、分词、分句等预处理研究（2）数据资源的加工与标注：采用人工标注、共性分析和实例迁移的方法构建一定规模的标注数据集（3）深层次的形态分析方法研究：围绕黏着语的词法特点，主要探索了基于不同策略的词干提取、形态切分、音节切分、形态生成以及应用研究等任务。（4）多语言统一语言分析展示平台：采用统一标注规范、统一的数据资源，集成形态分析相关技术，建立了一套适用于中亚诸语言词法分析的通用性展示平台。通过以上研究成果，可有效解决资源匮乏条件下中亚诸语言的形态丰富性，大大缓解了现有黏着语自然语言处理面临的瓶颈问题，为解决中亚诸多语言智能信息处理的关键性问题提供技术支持。项目研究期间共培养硕士博士研究生共11名，发表EI检索论文6篇、中文核刊论文15篇，申请专利3项，获批软件著作权3项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：

发表时间：2021

DOI：10.3969/j.issn.1001-1978.2022.02.019

发表时间：2022

DOI：

发表时间：2020

吐尔根·依布拉音的其他基金

批准号：61063026

批准年份：2010

资助金额：25.00

项目类别：地区科学基金项目

批准号：60663006

批准年份：2006

资助金额：25.00

项目类别：地区科学基金项目

相似国自然基金

语言信息处理的理论与实现方法研究

批准号：68773002

批准年份：1987

负责人：黄建烁

学科分类：F0211

资助金额：2.00

项目类别：面上项目

基于犹豫模糊语言信息的定性决策理论与方法

批准号：71501135

批准年份：2015

负责人：廖虎昌

学科分类：G0103

资助金额：17.40

项目类别：青年科学基金项目

形态分析方法研究

批准号：29235100

批准年份：1992

负责人：单孝全

学科分类：B04

资助金额：37.00

项目类别：重点项目

语言竞争、濒危与保护的社会仿真理论与方法

批准号：61364022

批准年份：2013

负责人：毕贵红

学科分类：F0302

资助金额：45.00

项目类别：地区科学基金项目

中亚诸语言形态分析理论与方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

TRPV1/SIRT1介导吴茱萸次碱抗Ang Ⅱ诱导的血管平滑肌细胞衰老

扶贫资源输入对贫困地区分配公平的影响

吐尔根·依布拉音的其他基金

基于短语的维汉统计机器翻译关键技术的研究

面向汉维机器翻译的双语对齐语料库和短语库构建技术的研究

相似国自然基金