Named entity is the main carrier of information, used to express the main content of the text, and is also the basis for correctly understanding the text, Named Entity Recognition(NER) is the most simple and quick way to understand an article. In the area of natural language processing research, the result of NER is extremely important to morphological, syntactic and semantic analysis, in terms of application, NER is basic key technology for information extraction, machine translation, information filtering, question-and-answer system etc. At present, many researchers of domestic and foreign have carried in-depth studies on NER, proposed algorithms, models, made a major breakthrough, and developped appilicable systems. So far, no scholars have carried any systematically work on Uyghur NER technology, NER has become the bottleneck of Uyghur information processing development. In this project, we build a 500 million words artificial tagged corpus by using existing corpus, carry research on Uyghur people name recognition, place name recognition, oragnization name recogniton by using rule based and statistical based methods, and develop an applicale system, this system will improve the performance of system such as Chinese-Uyghur Machine Translation system, Uyghur information retrieval system and Uyghur illegal information filtering systems.
命名实体是信息的主要载体,用来表达文本的主要内容,也是正确理解文本的基础,进行命名实体识别是了解一篇文章最简单快捷的一种方法。在自然语言处理研究方面,命名实体识别的效果,对词法、句法、语义分析等都具有极其重要的影响,在应用方面,命名实体识别是信息抽取、机器翻译、信息过滤、问答系统等研究分支的基础技术。目前,在国内外的众多研究者已对命名实体识别技术展开了深入研究,提出了很多算法、模型,取得了很大的突破,并研发了可用的识别系统。迄今为止,还没有学者针对维吾尔文命名实体识别技术展开任何系统地研究工作,命名实体识别技术已经成为了制约维吾尔文信息处理进一步发展的瓶颈。本项目中,利用现有语料库构建500万词次人工标注的语料库,采用规则、统计等方法对维吾尔文人名、地名及机构名识别展开深入研究,并研发达到实用水平的识别系统,该系统将提高汉维机器翻译、维吾尔文信息检索、维吾尔文不良信息过滤等系统性能。
通过本项目的实施,收集与整理了近五年的中央新闻联播、自治区新闻联播和政府文献,政府新闻等文本资源。为了保证标注语料库的均衡性,利用已有的维吾尔文句子相似度和词向量选出50万句子进行自动标注,目前已完成267187条句子的人工验证。已验证的标注语料库包括7025439条词汇,210708条单词,实体数量524995条,不重复实体102672,33394条人名,50794条地名,18484条机构名,日期162318条,构建了1423条汉语-维吾尔语职务名称词典,218609条汉语-维吾尔语地名词典,18484条汉语-维吾尔语机构名词典等资源。.本项目中,围绕维吾尔文命名实体识别对拼写检查、词性标注、数字日期、事件类时间短语、人名识别、地名识别、地名识别、机构名识别、药品信息处理等进行研究,共发表论文15篇,其中会议论文5篇,与本项目研究内容直接有关论文7篇,与本项目研究内容关联的论文3篇,申请了4项软件著作权。为了提高语料库质量,避免拼写错误对标注一致性和匹配的影响研究了基于词典和统计的拼写检查方法;为了收集维吾尔文文本,扩大未标注语料库的规模结合其它项目,研究实现了基于规则和词典的维吾尔文多文字转换系统;因为维吾尔语是形态丰富的黏着语言,对名词形态分析进行了研究,并实现了基于混合策略的名词词干提取系统;采用统计和规则对维吾尔人名识别进行研究,再利用词向量与最大熵结合的方法对人名识别方法进行实验,准确率达到96.3%;同时,初步开展了利用双语平行语料库,对人名进行识别的方法,识别准确率为60.71%,其中识别为人名的准确率为90.63%,被错误识别率为9.37%,不被识别率为39.23%。为了提高词典与序列标注模型的结合,提出了CRF与词典结合的维吾尔文地名识别方法,准确率为94%左右。利用语法语义知识对维吾尔文机构名进行识别,实验结果表明,该算法识别的F值达到83.05%,获得了较好结果。本项目构建的资源和研究成果已提供其它相关项目应用,本项目组正在结合最新深度学习方法,继续开展研究,进一步扩建语料库,完善性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于细粒度词表示的命名实体识别研究
压电驱动微型精密夹持机构设计与实验研究
轻量级密码算法TWINE的唯密文故障分析
阿克苏河流域地名文化景观分布特征及成因探析
泡沫逆转录病毒分类和命名的最新进展
面向海量文本的维吾尔文命名实体识别关键理论及技术研究
藏语命名实体识别关键技术研究
维吾尔文手写签名识别与验证的关键技术研究
维吾尔语命名实体间语义关系抽取理论方法研究