维吾尔语语言资源监测关键技术与方法研究

基本信息
批准号:61262066
项目类别:地区科学基金项目
资助金额:48.00
负责人:玉素甫·艾白都拉
学科分类:
依托单位:新疆师范大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:艾山江阿不力孜,艾孜尔古丽·玉素甫,伊克巴尔·吐尔逊,安尼瓦尔·赛买提,麦麦提艾力·吐尔孙,阿不都热依木,阿力木·木拉提,阿孜古丽·艾力卡
关键词:
维吾尔语常用词干表监测技术流通语料库
结项摘要

Uyghur language resources monitoring technology and solid state monitoring becomes not only an urgent subject need to study in the Xinjiang social development areas and minority language information processing field, but also an significant social problem related to national stability, security and international influence. The project from the angle of computational linguistics research Uyghur language resources dynamic monitoring key technology and the Uyghur language commonly used word stem completion, solid state and dynamic corpus based on the existing achievement of normative research of the Uyghur language commonly used word stem completion and standard, according to the characteristics of the Uyghur language and principles of statistics theory, the four big media as a Uyghur language real corpora. This technology will solve the Uyghur language use in dynamic monitoring, constructing the national circulation corpus, puts forward in the Uyghur language commonly used word stem completion table and for development language information resources monitoring system provide quantitative scientific basis. Especially in the public opinion analysis or information extraction, network content understanding, multilingual intelligent software development, to determine the Xinjiang technology d steady national security information of the important support, over the national level approved no Uyghur language commonly used word stem completion table and dynamic circulation corpus the passive state, which have great research and application value. In order to create a harmonious society, the better for the autonomous region culture education and economic and social development service, for technology dimension stability, science and technology to promote stability has important significance.

维吾尔语言资源监测技术与实态监测不仅是新疆社会发展领域、少数民族语言信息处理领域急需研究的重要课题,而且涉及国家稳定、安全与国际影响的重大社会问题。本项目在现有的维吾尔语常用词干与规范研究成果的基础上,根据维吾尔语的特点和统计学原理理论,四大媒体作为维吾尔语真实语料对象,计算语言学角度研究维吾尔语言文字资源动态监测关键技术和维吾尔语常用词干、实态与动态语料库。此项技术将解决维吾尔语使用状况动态监测,构建维吾尔语流通语料库,提出维吾尔语常用词干表和并为开发语言信息资源监测系统提供定量科学依据。特别是在研究舆情分析或信息抽取、网络内容理解、多语种智能软件研发,确定新疆科技维稳等国家安全信息化工作的重要支撑,结束国家层面认可的没有维吾尔语常用词干表和动态流通语料库的被动局面等方面,具有重大的研究与应用价值。为创建和谐社会,为自治区文化教育以及经济社会发展服务,对科技维稳、科技促稳具有十分重要意义

项目摘要

本项目利用维吾尔语词汇学、计算语言学的相关理论与方法,采用词汇计量分析技术,解决维吾尔语言文字资源动态监测语言资源库建设中的关键技术与方法,提出维吾尔语参考常用词干表,为舆情分析或信息抽取、网络内容理解、智能软件研发、为确定非母语学生学习维吾尔语教材阶段词干数量等提供科学依据,解决了多语种智能软件测试词干数量标准等领域的瓶颈问题。本报告力图对现代维吾尔语资源库建设、语言监测关键技术、常用词汇研究做一较为系统的论述。.本文从理论与方法、工具、资源等三个方面深入开展研究。主要内容有:.(1)对维吾尔语本身进行研究。主要研究维吾尔语言文字的演进、现代维吾尔文字母的特点、维吾尔语音节特点、现代维吾尔语语音变化、维吾尔语词法结构及维吾尔语计算语言学相关理论,其中包括维吾尔语语料库语言学、计量分析方法、相关技术及其算法(现代维吾尔语数据分析算法、现代维吾尔语词干标注标算法、维吾尔语名词识别算法、维吾尔语句子相似度计算方法、维吾尔语谚语识别算法、流行语提取算法)。.(2)优化整合现有软件及开发了由维吾尔语多策略网站采集系统、维吾尔语料预处理系统、维吾尔语文本语料分类系统、维吾尔语语料统计系统、维吾尔语词干提取系统、维吾尔流行语提取系统、维吾尔语文成语谚语识别系统、维吾尔语数据分析系统等八大系统组成的维吾尔语言信息资源监测平台。.(3)构建维吾尔语言资源流通动态语料库、研制维吾尔语候选常用词干表及研究中国维吾尔语语言生活状况。包括现代维吾尔语平面媒体、有声媒体、教材媒体、网络媒体等四大媒体语料库,现代维吾尔语平面媒体常用候选词表、教材媒体常用候选词表、有声媒体常用候选词表、网络媒体常用候选词表等四大媒体常用词汇表。.项目创新之处在于将语料库语言学、计量分析方法、相关技术及其算法成功应用维吾尔语处理中,探索出相应的处理方法,并设计与实现一系列算法。构建了维吾尔语言资源流通动态语料库、制定维吾尔语候选常用词干表及发布中国维吾尔语语言生活状况报告;在整合现有软件及技术基础上,开发了维吾尔语多策略网站采集系统等八大系统组成的维吾尔语言信息资源监测平台。已达到预期目标,部分成果已经在国家安全及有关科研机构开发少数民族智能软件应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

结核性胸膜炎分子及生化免疫学诊断研究进展

结核性胸膜炎分子及生化免疫学诊断研究进展

DOI:10.3760/cma.j.issn.1674-2397.2020.05.013
发表时间:2020

玉素甫·艾白都拉的其他基金

批准号:61063036
批准年份:2010
资助金额:27.00
项目类别:地区科学基金项目
批准号:60463005
批准年份:2004
资助金额:25.00
项目类别:地区科学基金项目

相似国自然基金

1

面向资源稀缺型语言的机器翻译理论方法及关键技术研究

批准号:61732005
批准年份:2017
负责人:余正涛
学科分类:F0211
资助金额:295.00
项目类别:重点项目
2

网格计算资源的监测与控制关键技术研究

批准号:90412006
批准年份:2004
负责人:武永卫
学科分类:F0204
资助金额:30.00
项目类别:重大研究计划
3

文本语言表达到概念关系的映射方法研究与资源建设

批准号:61375074
批准年份:2013
负责人:穗志方
学科分类:F03
资助金额:79.00
项目类别:面上项目
4

维吾尔语情感语音合成关键技术研究

批准号:61065005
批准年份:2010
负责人:艾斯卡尔·艾木都拉
学科分类:F0605
资助金额:26.00
项目类别:地区科学基金项目