基于大规模部分标注数据的依存句法分析

基本信息
批准号:61502325
项目类别:青年科学基金项目
资助金额:20.00
负责人:李正华
学科分类:
依托单位:苏州大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:高恩婷,褚晓敏,王星,巢佳媛,王超超,李方圆
关键词:
依存句法分析人工标注文本单语无标注文本双语对齐无标注文本部分标注数据
结项摘要

As one of the key research topics in the field of natural language processing, dependency parsing has been widely applied to important tasks such as machine translation and relation extraction. The major problem for current research is that dependency parsers can achieve satisfactory performance on canonical newswire texts, but the performance drops dramatically when dealing with texts from other domains or genres. Along with the emergence of large-scale web data, the important challenge for dependency parsing is how to accurately analyze non-canonical web texts which largely differs from traditional newswire texts. The basic idea of this proposal is to construct large-scale training instances based on different types of annotations, and to expand the scale and genre coverage of the training data, so that the performance on web data can be improved by large margin...This project proposes a new data representation scheme based on partial annotations, which allows that a training sentence may contain partial syntactic structures. Furthermore, we construct large-scale training instances from three aspects: 1) collecting partially annotated data based on manual annotation; 2) mining partially annotated data from monolingual unlabeled texts based on model ensemble; 3) mining partially annotated data from bilingual parallel unlabeled texts based on dual decomposition. Finally, we plan to train our parsing model on the newly-constructed large-scale partially annotated training data, and build a robust and high-accuracy dependency parsing platform.

依存句法分析一直是自然语言处理领域的关键研究问题,广泛应用于机器翻译、关系抽取等核心任务。目前依存分析的主要问题是面对新闻领域的规范文本时性能较好,但用于其它领域或类型的文本时,性能急剧下降。随着大规模网络数据的出现,依存分析的重要挑战是如何精准分析有别于传统规范新闻文本的网络文本。本项目的研究思路是利用各种类型的标注信息获取大规模句法实例,扩大训练数据的规模和领域覆盖面,从而大幅度提高依存分析处理网络文本的性能。为此,本项目提出一种新的基于部分标注的数据表示方式,允许一个句子只包含部分句法结构。进而从三个层面建模获取大规模句法实例:1) 基于人工标注的方法获取部分标注数据;2) 基于多模型的方法自动从单语无标注文本中挖掘部分标注数据;3) 基于对偶分解的方法自动从双语对齐无标注文本中挖掘部分标注数据。最终,利用大规模基于部分标注的训练实例,建立一个高性能的依存句法分析平台。

项目摘要

依存句法分析一直是自然语言处理领域的关键研究问题。当前依存句法分析面临的主要挑战是面对有别于训练数据的网络文本时,性能大幅度下降。本课题提出以局部句法树表示作为基础,从人工数据标注、异构人工标注数据融合、无标注数据的利用等多个角度展开研究,最终构建一个高鲁棒性的依存句法分析平台,促进自然语言理解的进展。项目执行期间,我们基本按照项目申请书中的研究计划开展工作,并根据实际需要额外完成了一些相关研究。目前,我们完成了项目申请书中提出的各项工作目标,其中有代表性的工作包括:发表10篇论文,其中2篇ACL,2篇EMNLP;申请专利7项,其中授权1项;人工标注数据8万句;编制依存句法数据标注规范1册(约70页);搭建语言分析平台、数据标注平台、多粒度分词平台;培养4名硕士生毕业。具体而言,本项目完成的有特色的技术包括:1)基于局部句法树表示的数据标注;2)基于局部句法树表示的模型学习算法;3)基于局部句法树表示的半监督依存句法分析;4)基于双树对齐数据的有监督树库转化;5)基于耦合序列标注的异构词法数据融合和转化。最后,衷心感谢自然科学基金委的资助,使得本项目得以顺利开展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

五轴联动机床几何误差一次装卡测量方法

五轴联动机床几何误差一次装卡测量方法

DOI:
发表时间:
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

李正华的其他基金

批准号:31800106
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:61876116
批准年份:2018
资助金额:64.00
项目类别:面上项目
批准号:49503044
批准年份:1995
资助金额:12.00
项目类别:青年科学基金项目
批准号:61771092
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:61103148
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

基于大规模无标注语料的跨领域跨语言汉语依存句法分析

批准号:61572338
批准年份:2015
负责人:陈文亮
学科分类:F0211
资助金额:63.00
项目类别:面上项目
2

基于依存句法分析的蒙古语语义角色标注及关键技术研究

批准号:61262046
批准年份:2012
负责人:华沙宝
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
3

面向部分标注多模态数据的大规模跨媒体检索技术研究

批准号:61602089
批准年份:2016
负责人:徐行
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

基于依存关系的藏文语义角色标注研究

批准号:61363057
批准年份:2013
负责人:祁坤钰
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目