藏语命名实体识别关键技术研究

基本信息
批准号:61303165
项目类别:青年科学基金项目
资助金额:22.00
负责人:诺明花
学科分类:
依托单位:内蒙古大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:刘汇丹,洪锦玲,于新,安波,高墨赤,许海洋
关键词:
命名实体藏文信息处理条件随机场人名识别机构名识别
结项摘要

Named Entity (NE) recognition plays an important role on natural language processing such as information extraction, syntactic analysis and cross-language retrieval. However, Tibetan NE recognition with higher precision is still an unresolved problem because of inadequate data resources and the limitation of existing recognition algorithms. We propose a fast and efficient Tibetan NE recognition framework with higher precision by analyzing the internal and external features of the Tibetan person name, location name, and organization names. The recognition framework combines the advantages of rule-based with statistical-based recognition methods. Firstly, we build organization name knowledge base from large-scale Tibetan corpus and Chinese-Tibetan transliteration correspondence knowledge base from Chinese-Tibetan aligned corpus using machine learning algorithms. These two knowledge bases are helpful to improve the accuracy of Tibetan NE recognition. Secondly, we adopt a hierarchical Tibetan named entity recognition method and integrate simple and complex named entity into a unified framework. We also study parameter learning methods for multiple models within our recognition framework. Eventually, Tibetan organization name knowledge base, Chinese-Tibetan transliteration correspondence knowledge base and Tibetan named entity labeled corpus lay the research foundation for Tibetan natural language processing.

命名实体识别技术是信息抽取、句法分析、跨语言检索等自然语言处理领域研究的前导技术和难题。藏文在自然语言处理方面研究起步比较晚,基础研究薄弱,当前尚未完全解决藏语命名实体高精度自动识别问题。本项目以藏语命名实体为研究对象,通过分析藏语人名、地名、机构名的内部和外部特征,充分结合规则和统计方法的优点,提出一种适合藏语自身的快速、高效、精准的藏语命名实体识别框架。首先,基于机器学习算法分别从大规模藏语语料和汉藏对齐语料中构建机构名识别知识库和汉藏对应的音译对照统计库,改进藏语命名实体识别的精度;其次,研究基于层次式机器学习模型的藏语命名实体识别方法,将简单和复杂命名实体集中在统一识别框架下,研究多个子模型的参数学习方法;本项目将建立藏语机构名识别知识库、汉藏对应的音译对照统计库、藏语命名实体标注语料,为藏语自然语言处理的研究提供基础。

项目摘要

语料库和语言知识库作为基本的资源,它们在不同层面构成了各种自然语言处理方法赖以实现的基础。命名实体是文本中基本的信息单位,是正确理解文本的基础。命名实体识别属于自然语言处理的基础研究领域,它的研究成果将直接影响到文本信息自动化处理的深层次研究。本项目在工作组已经收集整理的互联网藏文文本资源为基础,在藏语人名、地名和机构名以及未登录词识别等方面开展了研究,取得了一系列的成果。.本项目着手研究基于层叠条件随机场模型的藏语命名实体识别方法。该方法在低层条件随机场中以音节为切分粒度,结合汉族姓氏表、汉族人名常用字表、藏语地名常用后缀表、藏语地名常用字表等特征词典,实现简单命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套地名和机构名等复杂命名实体识别。进一步根据藏语机构名的语法特性,总结出简单机构名和复合机构名的构成规律,设计了有效的识别规则和相应的知识库,优化了藏语机构名的识别结果。应用CRF模型还是会漏标注部分命名实体,针对未登录的实体,我们先应用语料中“自然标注”识别出一部分未登录词,进一步通过词缀归并方法以及基于统计的SEC算法从预切分的分词碎片中发现未登录词,补充CRF的标注结果。.本项目建立的一系列的词典以及知识库为藏文信息处理的研究提供基础资源。截止到项目结题前后,共收录162个机构名特征词,1034个机构名修饰词,建立了包含1317个机构名的藏语机构名词典。汉藏对照命名实体规模达1万多条,通过命名实体识别软件标注好的语料规模为9.8万句子。.除了上述研究内容以外,我们还在藏语未登录词识别、大粒度的汉藏双语短语对抽取、多策略融合的汉藏机器翻译、藏语句法树库等方面也开展了研究工作。.本项目开发了藏文命名实体识别原型系统,申请软件著作权登记6项。申请发明专利4项,其中获得授权2项。发表国内期刊论文6篇,高水平国际会议论文4篇,国内学术会议论文3篇,另外参与2篇国际会议论文研发工作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021
5

基于Pickering 乳液的分子印迹技术

基于Pickering 乳液的分子印迹技术

DOI:10.1360/N972018-00955
发表时间:2019

诺明花的其他基金

相似国自然基金

1

维吾尔文命名实体识别关键技术研究

批准号:61262060
批准年份:2012
负责人:艾山·吾买尔
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目
2

面向海量文本的维吾尔文命名实体识别关键理论及技术研究

批准号:61562083
批准年份:2015
负责人:吐尔地·托合提
学科分类:F0211
资助金额:39.00
项目类别:地区科学基金项目
3

网络舆情监控中衍生命名实体高效能识别恢复理论与关键技术研究

批准号:61672393
批准年份:2016
负责人:刘金硕
学科分类:F0205
资助金额:64.00
项目类别:面上项目
4

面向Web的命名实体检测与跟踪关键技术研究

批准号:60503070
批准年份:2005
负责人:周雅倩
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目