Most of the central Asian languages belongs to Altaic language family Turkic group, which regarded as morphological complex languages. Morphological analysis for agglutinative and low resource language is difficult problem in natural language processing. And Central Asian language processing study of our country is lagging behind, Uyghur, Kazakh natural language processing has just begun. Therefore, our project’s main goal is how to learn from existing theories at home and abroad for central Asian language computation theory which applicable to central Asian languages characteristics. These theories should be able to describe and analyze the structure and morphology of various central Asian languages. This research project contents include: 1) construction of various central Asian language resources; 2) migrate resources for Central Asia languages 3) propose theoretical model of deep morphological analysis for Central Asian languages; 5) Unified morphological analyses models and demonstration platform. The project has important scientific significance and application value for the exploration of the cognitive mechanisms of human language understanding, development of Chinese and Central Asian language information technology and Implementation of the national "Silk Road Economic Zone" development strategy.
中亚诸语言属于阿尔泰语系的突厥语族,属于形态复杂的语言。资源稀缺的形态复杂语言形态分析是自然语言处理研究的一个难点。且我国关于中亚诸语言处理研究相对滞后,维吾尔语、哈萨克语自然语言处理领域的研究才刚刚起步。因此,如何借鉴国内外已有的理论和方法,针对中亚诸语言自身的特点和规律,建立一套适用于中亚诸多语言结构描述和形态分析的、可计算方法体系将是本项目研究的主要目标。研究内容包括: 1)中亚诸语言资源建设;2)中亚诸多语言资源迁移 3)深层次的形态分析研究;4)构建中亚诸多语言统一语言分析模型以及展示平台。本项目研究对于探索人类语言理解的认知机理,推动中亚诸多语言信息技术的发展,对实施国家“丝绸之路经济带”发展战略,具有重要的科学意义和应用价值。
中亚诸语言大多属于形态丰富且资源匮乏的黏着语,黏着语主要通过词干附加若干词缀的形式构词,因此黏着语词汇量庞大,尤其在资源匮乏的情况下,形态丰富性更易出现数据稀疏问题,严重影响下游任务。本项目围绕黏着语的形态丰富性,以维吾尔语、哈萨克语和乌兹别克语为研究对象,采用从浅到深的方式开展了一系列的研究,研究内容主要包括四部分:(1)资源自动获取:获取在线数据资源并进行语种识别、分词、分句等预处理研究(2)数据资源的加工与标注:采用人工标注、共性分析和实例迁移的方法构建一定规模的标注数据集(3)深层次的形态分析方法研究:围绕黏着语的词法特点,主要探索了基于不同策略的词干提取、形态切分、音节切分、形态生成以及应用研究等任务。(4)多语言统一语言分析展示平台:采用统一标注规范、统一的数据资源,集成形态分析相关技术,建立了一套适用于中亚诸语言词法分析的通用性展示平台。通过以上研究成果,可有效解决资源匮乏条件下中亚诸语言的形态丰富性,大大缓解了现有黏着语自然语言处理面临的瓶颈问题,为解决中亚诸多语言智能信息处理的关键性问题提供技术支持。项目研究期间共培养硕士博士研究生共11名,发表EI检索论文6篇、中文核刊论文15篇,申请专利3项,获批软件著作权3项。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
语言信息处理的理论与实现方法研究
基于犹豫模糊语言信息的定性决策理论与方法
形态分析方法研究
语言竞争、濒危与保护的社会仿真理论与方法