基于依存关系的藏文语义角色标注研究

基本信息
批准号:61363057
项目类别:地区科学基金项目
资助金额:43.00
负责人:祁坤钰
学科分类:
依托单位:西北民族大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:桑吉苏奴,华毛,马拉毛草,丹增罗布,关却吉
关键词:
语义树库现代藏文语义角色标注
结项摘要

The Semantic role labeling has become a hot research in the field of Chinese information processing, and widely used in the request-answering system, information extraction, machine translation and other fields. But the research on Tibetan semantic role labeling has not been reported at home and abroad.After studying Tibetan word segmentation and corpus construction for many years, this topic analyses the traditional Tibetan grammar logic case relationship and semantic mapping relationship of continuous features, put forward the Tibetan semantic role labeling system referred to FrameNet, PropBank and Peking University Chinese NetBank. On the basis of the existing part of speech tagging corpus, this topic established high-quality Tibetan syntactic tree bank TTB (sect TreeBank), semantic role labeling library TPB (sect PropBank) and Tibetan verbs semantic framework library TVN (sect VerbNet). Adopt Interdependence syntactic analysis method to establish the syntactic analysis model. Mining Tibetan syntactic structure properties to make the feature selection depending on Tibetan structure features and language habits as much as possible. Clarify the theory and principles of Tibetan semantic role labeling. In machine learning, adopt SVM, maximum entropy and CRF model to experiment and compare the results, build the best model for Tibetan semantic role labeling.

在中文信息处理领域语义角色标注以成为研究的热点,已广泛应用在问答系统、信息抽取、机器翻译等领域。但藏文语义角色标注方面的研究国内外尚未见文献报道。本课题在多年藏文分词研究和语料库建设的基础上,分析了传统藏文文法中的逻辑格关系以及接续特征的语义映射关系,参考FrameNet、PropBank和北大中文网库等资源库提出藏文语义角色标注体系。在现有词性标注语料库的基础上,建立高质量的藏语句法树库 TTB(Tibetan TreeBank)、语义角色标注库TPB(Tibetan PropBank)和藏语动词语义框架库TVN(Tibetan VerbNet)。采用依存句法分析方法建立句法分析模型。挖掘藏文句法结构属性,使得特征选择尽可能依赖藏文结构特性和语言习惯。阐明藏语语义角色标注的理论和原理。在机器训练中,分别采用SVM、最大熵和CRF模型进行实验并比较结果,构建适合藏文语义角色标注的

项目摘要

近年来,国内藏文信息技术研究主要集中在藏语语料库建设、自动分词、词性标注和句法分析等领域,在藏语语义分析和知识资源研究领域成果较少。其主要原因句法语义分析理论在中文信息处理领域近几年来刚刚兴起,各种理论与技术正处于探索阶段,再加之藏文缺少像PropBank 和CoNLL2008语义标注树库一样的知识资源库。因而,要提高藏语自然语言处理系统的质量和精度,就必须加大对藏语浅层语义分析研究、建立具有一定规模的句法树库和词汇框架语义库、确定语义标注体系、探索语义角色自动标注模型等方面的研究。只有这样才能不断完善藏语自然语言处理的理论和技术,才能有效地解决藏语浅层语义分析的“瓶颈”技术。因此,句法语义研究已经成为藏文信息处理领域的核心内容和关键技术,也是本课题的关注的核心内容。.本课题借鉴了国内外前沿理论与技术,在大规模词性标注语料库的基础上,对藏语逻辑格与句法结构、语义角色之间的对应关系展开了研究,制定藏语句树库规范和藏语语义角色标注体系。构建了一个比较合理的影响藏语语义角色标注的语言特征集。建立了藏语句法树库、藏语语义角色标注库、藏语动词语义框架库等相关核心标注库,研发了针对句法树库和语义树库的具有角色匹配、一致性监测、角色分析等功能的管理系统。在藏语句法树库和语义角色标注库的基础上,转换标注语料,采用SVM、MEM、CRFs、感知机和LSTM等多个模型进行了大量的训练测试研究,最终选择了基于LSTM的藏语依存句法分析系统,使得语义角色识别率达到了81%的效果。为藏语语义的进一步研究提供了依据。同时,完成了1600条藏语动词的框架语义库和一万句藏语句法树库和语义角色标注库;研发了基于感知机和LSTM+CRF的藏文分词标注软件、藏语语料库统计软件、藏语语义角色标注系统、藏梵文排序及藏文文档排版系统等软件。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
3

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

生物炭用量对东北黑土理化性质和溶解有机质特性的影响

DOI:10.19336/j.cnki.trtb.2020112601
发表时间:2021
4

创业者的工作家庭冲突① ———基于角色转型的视角

创业者的工作家庭冲突① ———基于角色转型的视角

DOI:
发表时间:2018
5

基于关系对齐的汉语虚词抽象语义表示与分析

基于关系对齐的汉语虚词抽象语义表示与分析

DOI:
发表时间:2020

祁坤钰的其他基金

相似国自然基金

1

汉语语义角色标注方法研究

批准号:60675034
批准年份:2006
负责人:秦兵
学科分类:F03
资助金额:24.00
项目类别:面上项目
2

基于结构化学习的语义角色标注方法研究

批准号:60873156
批准年份:2008
负责人:穗志方
学科分类:F0211
资助金额:32.00
项目类别:面上项目
3

汉语框架语义角色自动标注技术研究

批准号:60873128
批准年份:2008
负责人:李济洪
学科分类:F0211
资助金额:35.00
项目类别:面上项目
4

基于整句层面的中文语义角色标注关键技术研究

批准号:61702209
批准年份:2017
负责人:杨海彤
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目