维吾尔语命名实体间语义关系抽取理论方法研究

基本信息
批准号:61462083
项目类别:地区科学基金项目
资助金额:46.00
负责人:卡哈尔江·阿比的热西提
学科分类:
依托单位:新疆大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:加米拉·吾守尔,瓦依提·阿不力孜,开沙尔·卡地尔,努尔麦麦提·尤鲁瓦斯,米莉万·雪合来提,亚森·伊斯马伊力,陈昊
关键词:
半监督学习特征提取维吾尔语实体关系抽取
结项摘要

Uyghur language, which belongs to the Altaic language family of Turkic subgroup,is a morphologically complex language and have it's morpholigical, syntactic characteristics different from English and Chinese. Named entity relation notation and extraction on morphologically complex langguage faces important scientific issues. This project will study Uyghur named entity semantic relation extraction, includes drawing up a unified standard Uyghur named entity semantic relation annotation guidelines for the Uyghur information processing, the development of smart Uyghur named entity semantic relation annotation tools based on active learning, and on this base, construct the training corpus for relation extraction. And we further study combined methods of feature extraction based on random walk supervised model and semi-supervised machine learning, finally develop hybrid approach for Uyghur named entity semantic relation extraction in line with the characteristics of the Uyghur language. Those will lay a solid research basis for automatic generation of Uyghur knowledge base, semantic Web,intelligent information retrieval and natural language understanding.

维吾尔语属于阿尔泰语系突厥语族,是一种复杂形态语言,具有不同于英语、汉语的独特词法、句法等语言特点。复杂形态语言命名实体间语义关系表示和自动抽取是 维吾尔语互联信息处理面临的重要科学问题。本课题将以维吾尔语命名实体间语义关系抽取为研究目标,着重研究制定具有统一标准的、面向信息处理的维吾尔语命名实体间语义关系标注规范,研发以主动学习为智能手段的关系标注工具,并在此基础上构建关系训练语料库,进一步研究基于随机游动模型的监督和半监督相结合的维吾尔语关系特征抽取方法,最后研究出符合维吾尔语语言特点的命名实体间语义关系自动抽取混合方法。项目研究成果为维吾尔语知识库的自动生成、语义 Web、智能信息 检索、自动问答系统以及自然语言理解研究打下坚实的基础。

项目摘要

本课题以研究维吾尔语命名实体及其关系抽取研究为目标,首次提出了维吾尔语命名实体以及关系标注方案、实现了相应的标注软件并构建了相应的相关语料库。在此基础上,分别提出了维吾尔语文本特征提取方法、维吾尔语命名实体识别方法以及维吾尔语命名实体关系抽取方法,为维吾尔语信息抽取、文本内容理解与文本内容安全以及知识图谱等领域打下了基础。.四年来,课题总体进展顺利,所有研究计划已按要求完成,达到了预期目标。特别是:1)在维吾尔语命名实体及其关系语料库构建方面,首次制定了维吾尔语命名实体及其关系标注方案。在标注方案的基础上,开发并实现了传统的坐式标注和基于Kinect的互动式的标注工具。2)在资源构建方面,构建了3万多条句子规模的维吾尔命名实体语料库,1500文档的维吾尔语命名实体关系语料库、4万多条句子规模的维吾尔语远程监督关系抽取语料库以及以维吾尔语关系特征提取为目标的小规模复述语料和语法信息词典。3)在维吾尔语命名实体识别和关系抽取方面,提出了基于CRF和半监督学习的以及基于神经网络的命名实体识别方法和基于混合策略的维吾尔语命名实体关系抽取方法。.四年来,发表EI检索论文3篇,期刊论文15篇,国际国内会议论文10篇,获得软件著作权5项。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

卡哈尔江·阿比的热西提的其他基金

相似国自然基金

1

藏文实体语义关系抽取理论与方法研究

批准号:61262054
批准年份:2012
负责人:于洪志
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
2

汉语命名实体间语义关系的无导自动识别研究

批准号:60442005
批准年份:2004
负责人:何婷婷
学科分类:F0211
资助金额:13.00
项目类别:专项基金项目
3

基于树核函数的弱指导实体间语义关系抽取研究

批准号:60873150
批准年份:2008
负责人:周国栋
学科分类:F0211
资助金额:30.00
项目类别:面上项目
4

面向开放域知识网络的实体语义关系抽取方法研究

批准号:61672057
批准年份:2016
负责人:冯岩松
学科分类:F0211
资助金额:62.00
项目类别:面上项目