The Semantic role labeling has become a hot research in the field of Chinese information processing, and widely used in the request-answering system, information extraction, machine translation and other fields. But the research on Tibetan semantic role labeling has not been reported at home and abroad.After studying Tibetan word segmentation and corpus construction for many years, this topic analyses the traditional Tibetan grammar logic case relationship and semantic mapping relationship of continuous features, put forward the Tibetan semantic role labeling system referred to FrameNet, PropBank and Peking University Chinese NetBank. On the basis of the existing part of speech tagging corpus, this topic established high-quality Tibetan syntactic tree bank TTB (sect TreeBank), semantic role labeling library TPB (sect PropBank) and Tibetan verbs semantic framework library TVN (sect VerbNet). Adopt Interdependence syntactic analysis method to establish the syntactic analysis model. Mining Tibetan syntactic structure properties to make the feature selection depending on Tibetan structure features and language habits as much as possible. Clarify the theory and principles of Tibetan semantic role labeling. In machine learning, adopt SVM, maximum entropy and CRF model to experiment and compare the results, build the best model for Tibetan semantic role labeling.
在中文信息处理领域语义角色标注以成为研究的热点,已广泛应用在问答系统、信息抽取、机器翻译等领域。但藏文语义角色标注方面的研究国内外尚未见文献报道。本课题在多年藏文分词研究和语料库建设的基础上,分析了传统藏文文法中的逻辑格关系以及接续特征的语义映射关系,参考FrameNet、PropBank和北大中文网库等资源库提出藏文语义角色标注体系。在现有词性标注语料库的基础上,建立高质量的藏语句法树库 TTB(Tibetan TreeBank)、语义角色标注库TPB(Tibetan PropBank)和藏语动词语义框架库TVN(Tibetan VerbNet)。采用依存句法分析方法建立句法分析模型。挖掘藏文句法结构属性,使得特征选择尽可能依赖藏文结构特性和语言习惯。阐明藏语语义角色标注的理论和原理。在机器训练中,分别采用SVM、最大熵和CRF模型进行实验并比较结果,构建适合藏文语义角色标注的
近年来,国内藏文信息技术研究主要集中在藏语语料库建设、自动分词、词性标注和句法分析等领域,在藏语语义分析和知识资源研究领域成果较少。其主要原因句法语义分析理论在中文信息处理领域近几年来刚刚兴起,各种理论与技术正处于探索阶段,再加之藏文缺少像PropBank 和CoNLL2008语义标注树库一样的知识资源库。因而,要提高藏语自然语言处理系统的质量和精度,就必须加大对藏语浅层语义分析研究、建立具有一定规模的句法树库和词汇框架语义库、确定语义标注体系、探索语义角色自动标注模型等方面的研究。只有这样才能不断完善藏语自然语言处理的理论和技术,才能有效地解决藏语浅层语义分析的“瓶颈”技术。因此,句法语义研究已经成为藏文信息处理领域的核心内容和关键技术,也是本课题的关注的核心内容。.本课题借鉴了国内外前沿理论与技术,在大规模词性标注语料库的基础上,对藏语逻辑格与句法结构、语义角色之间的对应关系展开了研究,制定藏语句树库规范和藏语语义角色标注体系。构建了一个比较合理的影响藏语语义角色标注的语言特征集。建立了藏语句法树库、藏语语义角色标注库、藏语动词语义框架库等相关核心标注库,研发了针对句法树库和语义树库的具有角色匹配、一致性监测、角色分析等功能的管理系统。在藏语句法树库和语义角色标注库的基础上,转换标注语料,采用SVM、MEM、CRFs、感知机和LSTM等多个模型进行了大量的训练测试研究,最终选择了基于LSTM的藏语依存句法分析系统,使得语义角色识别率达到了81%的效果。为藏语语义的进一步研究提供了依据。同时,完成了1600条藏语动词的框架语义库和一万句藏语句法树库和语义角色标注库;研发了基于感知机和LSTM+CRF的藏文分词标注软件、藏语语料库统计软件、藏语语义角色标注系统、藏梵文排序及藏文文档排版系统等软件。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于FTA-BN模型的页岩气井口装置失效概率分析
生物炭用量对东北黑土理化性质和溶解有机质特性的影响
创业者的工作家庭冲突① ———基于角色转型的视角
基于关系对齐的汉语虚词抽象语义表示与分析
汉语语义角色标注方法研究
基于结构化学习的语义角色标注方法研究
汉语框架语义角色自动标注技术研究
基于整句层面的中文语义角色标注关键技术研究