现代维吾尔语句法分析关键技术的研究

基本信息
批准号:60963018
项目类别:地区科学基金项目
资助金额:21.00
负责人:艾山·吾买尔
学科分类:
依托单位:新疆大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:阿不都热依木·热合曼,麦热哈巴·艾力,阿孜古丽·夏力甫,努尔麦麦提·尤鲁瓦斯,早克热·卡德尔,买合木提·买买提,张亚军,任高举
关键词:
条件随机场树库标注体系句法分析浅层句法分析
结项摘要

句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构。因此,在自然语言处理领域中,句法分析技术始终是众多专家关注的问题。目前在国内外的众多研究者已对句法分析技术展开了深入研究,提出了很多算法、模型,取得了很大的突破。迄今为止,还没有学者针对现代维吾尔语句法分析技术展开任何系统地研究工作,句法分析技术便成为了制约维吾尔文信息处理进一步发展的瓶颈。本项目对现代维吾尔语的句法结构进行研究,制定现代维吾尔语句法树库标注体系,采用规则、统计和机器学习等方法对浅层句法分析、完全句法分析、规则与统计融合的句法分析、浅层句法分析与完全句法分析相结合的句法分析等展开深入研究,为进一步研究汉维机器翻译、问答系统等奠定基础。通过本项目构建1.5句规模的维吾尔语句法树库,维吾尔语短语产生式规则库,研发维吾尔语句法分析系统和树库构建系统。

项目摘要

句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构,是实现具体目标的重要环节。维吾尔语句法分析技术已经成为了制约维吾尔文信息处理进一步发展的瓶颈。通过本项目的实施,完成了维吾尔文句法树库规范的制定,收集与整理了1000多篇政府文献、18个月的新疆维吾尔自治区电视台新闻联播维吾尔文语料库、维吾尔文出版物语料库300部,语料库句子数量达到了25万句。为了保证标注语料库的均衡性,研究与实现了维吾尔文文本分类算法和句子相似度算法。利用文本分类和相似度算法选出了5万句子,目前完成了2万句子的标注,标注采用本项目制定的维吾尔文功能语块标记和成分标记集。设计与实现了集成句子边界识别、词性标注、词干提取的维吾尔语句法树库构建系统。本项目中,研究与实现了基于线图算法的维吾尔语句法分析器、基于 GLR 算法的维吾尔语句法分析器、基于CRF的维吾尔语组块分析器、 基于 PCFG 的句法分析器和基于 CRF 的句法分析器。在项目实施过程中,为了减少词法分析阶段的错误蔓延对句法分析的影响,对维吾尔文词性标注和词干提取进行了研究,研究与实现了基于混合策略的词干提取和词性标注系统。本项目研究过程中,发表了相关论文9篇,申请了软件著作权2项,培养了1名博士后、1名博士、4名硕士,在站博士后1名,在读博士生2名,在读硕士1名,主持人博士毕业论文《维吾尔语词法句法分析关键技术的研究》获得新疆维吾尔自治区2010年度优秀博士毕业论文。本项目所构建的语料库、词性标注、词干提取、组块分析等技术提供给新疆多语种信息技术重点实验室其他研究项目使用及中科院计算所等单位。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
2

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
3

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

DOI:10.19336/j.cnki.trtb.2020112601
发表时间:2021
4

污染土壤高压旋喷修复药剂迁移透明土试验及数值模拟

污染土壤高压旋喷修复药剂迁移透明土试验及数值模拟

DOI:10.11908/j.issn.0253-374x.19265
发表时间:2020
5

多媒体网络舆情危机监测指标体系构建研究

多媒体网络舆情危机监测指标体系构建研究

DOI:
发表时间:2017

艾山·吾买尔的其他基金

批准号:61262060
批准年份:2012
资助金额:45.00
项目类别:地区科学基金项目
批准号:61662077
批准年份:2016
资助金额:41.00
项目类别:地区科学基金项目

相似国自然基金

1

基于统计的维吾尔语依存句法分析若干关键技术研究

批准号:61262061
批准年份:2012
负责人:麦热哈巴·艾力
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
2

现代哈萨克语句法分析与树库构建关键技术研究

批准号:61363062
批准年份:2013
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
3

现代维吾尔语声学特性研究

批准号:18670720
批准年份:1986
负责人:周同春
学科分类:A24
资助金额:1.50
项目类别:面上项目
4

汉语依存句法分析若干关键技术研究

批准号:60803093
批准年份:2008
负责人:车万翔
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目