维语实体指代消歧关键技术研究

基本信息
批准号:61563051
项目类别:地区科学基金项目
资助金额:40.00
负责人:禹龙
学科分类:
依托单位:新疆大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:田生伟,赵建国,阿布都沙拉木·阿不力米提,史新宇,高双印,阿地里江·阿力木江,努儿古丽·买买江,古丽巴哈尔·麦麦提,穆合塔尔·阿布力孜
关键词:
实体指代零指代深度学习维吾尔语指代消歧
结项摘要

Uyghur entity anaphora disambiguation is the keypoint of intelligent information processing based on Uyghur natural language. The purpose of the project is to establish a set of theory system about entity anaphora disambiguation in Uyghur natural language processing, which combines with the language rules of Uyghur for text comprehension. The project can develop the corresponding key technique and construct the relevant language resource. In addition, it can also set up the laboratory platform and solve the important problems which hinder its development. In particular, 1) for the problem of lacking in corpora resource, we construct the resource platform for Uyghur entity anaphora disambiguation, which possesses large-scale and high-quality corpora resource so that the project can go well. 2) For the problem of linguistic specificity, a series of Uyghur rule sets are created combining with the language rules and features. The rule sets can not only provide reference standard for rule-based method, but also provide effective feature sets for method based on machine learning. 3)For the numerous types of entity anaphora and the high disparities among various coreferences, the resolution model applied to different anaphora types is built based on studying each case of coreference deeply. Thus, these various anaphora types can be disambiguated effectively by the model. The project lays the technology foundation for the research and development of Uyghur information extraction, Uyghur to Chinese machine translation, Uyghur automatic summarization, question-answering system and so on.

维吾尔语实体指代消歧是维吾尔语自然语言智能信息处理的关键点。本项目旨在面向维吾尔语篇章理解、结合维吾尔语语言规律,建立一套适用于维吾尔语自然语言处理的实体指代消歧的理论方法体系,开发相应关键技术,构建相关语言资源,建设实验平台,解决阻碍其发展的重要科学问题。特别是:1)针对语料资源匮乏问题,构建面向维语实体指代消歧的资源建设平台,建设大规模、高质量语料资源,保障本项目的顺利开展。2)针对语言特殊性问题,充分分析维吾尔语语言规律和特点,构建一系列维语语言规则集,既为基于规则的方法提供参照标准,也为基于机器学习的方法提供有效的特征集。3)针对维吾尔语中实体指代类型多、各种指代之间差异大的问题,在对每一种指代现象都进行深入研究的基础上,建立适用于不同指代类型的消歧模型,实现对不同类型指代的有效消歧。为维语信息抽取、维-汉机器翻译、维语自动文摘、问答系统等上层应用的研究与发展奠定技术基础。

项目摘要

项目总体进展顺利,所有研究计划已按要求完成,达到预期目标。特别是:.1)收集了包含新闻评论、人物评论以及产品评论等领域的生语料,标注了包含人称代词、名词短语和零指代在内的727个篇章,采用系统性、一致性的解决方案,规范文本的标注。.2)人称代词待消解项识别方面:提出一种基于深度置信网络的人称代词待消解项识别方法。总结出包含10项特征的维吾尔语人称代词待消解项特征集。结果表明,该方法识别维吾尔语人称代词待消解项的准确率达95.17%,比SVM算法提高了9%,验证了其有效性和可行性。.3)人称代词指代消歧方面:提出一种结合语境多注意力独立循环神经网络的人称代词指代消解方法。该方法结合多注意力机制,弥补了仅依赖内容层面特征的不足。模型在维吾尔语人称代词指代消解任务中的准确率为90.79%,召回率为83.25%,结果表明,该模型能显著提升维吾尔语指代消解性能。.4)名词短语待消解项识别方面:提出一种利用栈式非负约束自编码器完成基于语义特征的待消解项识别方法。提取出15个特征,利用SNCAE提取出深层语义特征。结果表明基于SNCAE的名词短语待消解项识别方法比SVM和SAE更适合维吾尔语的待消解项识别任务。.5)名词短语指代消歧方面:提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法。提取出13项特征并引入Word embedding。该方法在指代消解任务中的准确率为74.5%,召回率为70.6%,F值为72.4%。结果证明,深度学习模型较浅层的支持向量机更合适于指代消解任务。.6)零代词指代消歧方面:提出采用栈式降噪自编码的深度学习机制进行维吾尔语零指代消解。抽取14项针对零指代消解任务的手工设计特征;融合word embedding特征和14项hand-crafted特征作为输入。结果验证了该方法的有效性及栈式降噪自编码在任务中具备挖掘高层面鲁棒性语义特征的优势。. 发表论文15篇,其中EI收录源期刊5篇,中文核心期刊论文10篇(中文信息学报6篇);获得软件著作权4项;获得省部级优秀论文1项,培养硕士研究生8人。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

禹龙的其他基金

批准号:61262064
批准年份:2012
资助金额:45.00
项目类别:地区科学基金项目

相似国自然基金

1

汉语篇章衔接性分析:指代、省略及其消歧研究

批准号:61272257
批准年份:2012
负责人:孔芳
学科分类:F0211
资助金额:20.00
项目类别:面上项目
2

命名实体消歧与多源实体知识获取方法研究

批准号:61370117
批准年份:2013
负责人:王厚峰
学科分类:F0211
资助金额:81.00
项目类别:面上项目
3

基于Web知识挖掘与融合的命名实体消歧技术研究

批准号:61070106
批准年份:2010
负责人:赵军
学科分类:F0211
资助金额:36.00
项目类别:面上项目
4

基于双语信息的英汉译文消歧技术研究

批准号:60375019
批准年份:2003
负责人:李生
学科分类:F03
资助金额:23.00
项目类别:面上项目