As one of the key research topics in the field of natural language processing, dependency parsing has been widely applied to important tasks such as machine translation and relation extraction. The major problem for current research is that dependency parsers can achieve satisfactory performance on canonical newswire texts, but the performance drops dramatically when dealing with texts from other domains or genres. Along with the emergence of large-scale web data, the important challenge for dependency parsing is how to accurately analyze non-canonical web texts which largely differs from traditional newswire texts. The basic idea of this proposal is to construct large-scale training instances based on different types of annotations, and to expand the scale and genre coverage of the training data, so that the performance on web data can be improved by large margin...This project proposes a new data representation scheme based on partial annotations, which allows that a training sentence may contain partial syntactic structures. Furthermore, we construct large-scale training instances from three aspects: 1) collecting partially annotated data based on manual annotation; 2) mining partially annotated data from monolingual unlabeled texts based on model ensemble; 3) mining partially annotated data from bilingual parallel unlabeled texts based on dual decomposition. Finally, we plan to train our parsing model on the newly-constructed large-scale partially annotated training data, and build a robust and high-accuracy dependency parsing platform.
依存句法分析一直是自然语言处理领域的关键研究问题,广泛应用于机器翻译、关系抽取等核心任务。目前依存分析的主要问题是面对新闻领域的规范文本时性能较好,但用于其它领域或类型的文本时,性能急剧下降。随着大规模网络数据的出现,依存分析的重要挑战是如何精准分析有别于传统规范新闻文本的网络文本。本项目的研究思路是利用各种类型的标注信息获取大规模句法实例,扩大训练数据的规模和领域覆盖面,从而大幅度提高依存分析处理网络文本的性能。为此,本项目提出一种新的基于部分标注的数据表示方式,允许一个句子只包含部分句法结构。进而从三个层面建模获取大规模句法实例:1) 基于人工标注的方法获取部分标注数据;2) 基于多模型的方法自动从单语无标注文本中挖掘部分标注数据;3) 基于对偶分解的方法自动从双语对齐无标注文本中挖掘部分标注数据。最终,利用大规模基于部分标注的训练实例,建立一个高性能的依存句法分析平台。
依存句法分析一直是自然语言处理领域的关键研究问题。当前依存句法分析面临的主要挑战是面对有别于训练数据的网络文本时,性能大幅度下降。本课题提出以局部句法树表示作为基础,从人工数据标注、异构人工标注数据融合、无标注数据的利用等多个角度展开研究,最终构建一个高鲁棒性的依存句法分析平台,促进自然语言理解的进展。项目执行期间,我们基本按照项目申请书中的研究计划开展工作,并根据实际需要额外完成了一些相关研究。目前,我们完成了项目申请书中提出的各项工作目标,其中有代表性的工作包括:发表10篇论文,其中2篇ACL,2篇EMNLP;申请专利7项,其中授权1项;人工标注数据8万句;编制依存句法数据标注规范1册(约70页);搭建语言分析平台、数据标注平台、多粒度分词平台;培养4名硕士生毕业。具体而言,本项目完成的有特色的技术包括:1)基于局部句法树表示的数据标注;2)基于局部句法树表示的模型学习算法;3)基于局部句法树表示的半监督依存句法分析;4)基于双树对齐数据的有监督树库转化;5)基于耦合序列标注的异构词法数据融合和转化。最后,衷心感谢自然科学基金委的资助,使得本项目得以顺利开展。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
五轴联动机床几何误差一次装卡测量方法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
基于大规模无标注语料的跨领域跨语言汉语依存句法分析
基于依存句法分析的蒙古语语义角色标注及关键技术研究
面向部分标注多模态数据的大规模跨媒体检索技术研究
基于依存关系的藏文语义角色标注研究