Uyghur language, which belongs to the Altaic language family of Turkic subgroup,is a morphologically complex language and have it's morpholigical, syntactic characteristics different from English and Chinese. Named entity relation notation and extraction on morphologically complex langguage faces important scientific issues. This project will study Uyghur named entity semantic relation extraction, includes drawing up a unified standard Uyghur named entity semantic relation annotation guidelines for the Uyghur information processing, the development of smart Uyghur named entity semantic relation annotation tools based on active learning, and on this base, construct the training corpus for relation extraction. And we further study combined methods of feature extraction based on random walk supervised model and semi-supervised machine learning, finally develop hybrid approach for Uyghur named entity semantic relation extraction in line with the characteristics of the Uyghur language. Those will lay a solid research basis for automatic generation of Uyghur knowledge base, semantic Web,intelligent information retrieval and natural language understanding.
维吾尔语属于阿尔泰语系突厥语族,是一种复杂形态语言,具有不同于英语、汉语的独特词法、句法等语言特点。复杂形态语言命名实体间语义关系表示和自动抽取是 维吾尔语互联信息处理面临的重要科学问题。本课题将以维吾尔语命名实体间语义关系抽取为研究目标,着重研究制定具有统一标准的、面向信息处理的维吾尔语命名实体间语义关系标注规范,研发以主动学习为智能手段的关系标注工具,并在此基础上构建关系训练语料库,进一步研究基于随机游动模型的监督和半监督相结合的维吾尔语关系特征抽取方法,最后研究出符合维吾尔语语言特点的命名实体间语义关系自动抽取混合方法。项目研究成果为维吾尔语知识库的自动生成、语义 Web、智能信息 检索、自动问答系统以及自然语言理解研究打下坚实的基础。
本课题以研究维吾尔语命名实体及其关系抽取研究为目标,首次提出了维吾尔语命名实体以及关系标注方案、实现了相应的标注软件并构建了相应的相关语料库。在此基础上,分别提出了维吾尔语文本特征提取方法、维吾尔语命名实体识别方法以及维吾尔语命名实体关系抽取方法,为维吾尔语信息抽取、文本内容理解与文本内容安全以及知识图谱等领域打下了基础。.四年来,课题总体进展顺利,所有研究计划已按要求完成,达到了预期目标。特别是:1)在维吾尔语命名实体及其关系语料库构建方面,首次制定了维吾尔语命名实体及其关系标注方案。在标注方案的基础上,开发并实现了传统的坐式标注和基于Kinect的互动式的标注工具。2)在资源构建方面,构建了3万多条句子规模的维吾尔命名实体语料库,1500文档的维吾尔语命名实体关系语料库、4万多条句子规模的维吾尔语远程监督关系抽取语料库以及以维吾尔语关系特征提取为目标的小规模复述语料和语法信息词典。3)在维吾尔语命名实体识别和关系抽取方面,提出了基于CRF和半监督学习的以及基于神经网络的命名实体识别方法和基于混合策略的维吾尔语命名实体关系抽取方法。.四年来,发表EI检索论文3篇,期刊论文15篇,国际国内会议论文10篇,获得软件著作权5项。.
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
藏文实体语义关系抽取理论与方法研究
汉语命名实体间语义关系的无导自动识别研究
基于树核函数的弱指导实体间语义关系抽取研究
面向开放域知识网络的实体语义关系抽取方法研究