知识驱动的汉语网络文本依存句法分析

基本信息
批准号:61876116
项目类别:面上项目
资助金额:64.00
负责人:李正华
学科分类:
依托单位:苏州大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:段湘煜,李英,宋楷,孙佳伟,朱运,黄德朋,江心舟,彭雪,章波
关键词:
依存句法分析有监督树库转化知识驱动深层神经网络网络文本
结项摘要

Dependency parsing is a key research task in the natural language processing field. In recent years, deep learning methods have achieved huge success in dependency parsing, and greatly improved parsing accuracy on Chinese canonical news texts from 79% to 85%. At present, the major challenge for dependency parsing is how to accurately analyze web texts that are dramatically different from the canonical news texts. To meet this challenge, this project plans to make in-depth exploration and effective utilization of three kinds of knowledge sources. 1) Direct external knowledge. Aiming at multi-source web texts, we first design a scientific annotation guideline for dependency parsing, and then manually annotate a large-scale data with syntactic trees, as a solid foundation for following research. 2) Indirect external knowledge. In order to effectively exploit various existing heterogeneous treebanks, we first manually annotate small-scale bi-tree aligned data, and then build supervised treebank conversion models based on the combination of pattern embedding and tree-structured recurrent neural network, and finally automatically generate large-scale high-quality data complying with our target guideline. 3) Interior linguistic knowledge. We first collect useful information from various linguistic knowledge bases and compile a large-scale word collocation network, and then employ graph embedding representation learning to incorporate the word collocation knowledge into deep neural network based parsing models. Based on the above explorations, we plan to build a robust and high-accuracy dependency parsing platform that can reliably analyze multi-source web texts.

依存句法分析是自然语言处理领域的关键研究任务。近几年来,深度学习方法在依存句法分析任务上取得了很大成功,将汉语规范新闻文本上的分析准确率从79%大幅提高到85%。目前依存句法分析的主要挑战是如何精准分析有别于规范新闻文本的网络文本。为应对这一挑战,本项目拟深入探索并有效利用三种类型的知识。1)直接外部知识:面向多源网络文本,制定科学的依存句法标注规范,并标注大规模句法数据,为下一步工作打下扎实的基础;2)间接外部知识:针对已有多源异构树库,人工标注小规模双树对齐数据,构建基于模式嵌入和树形循环神经网络的有监督树库转化模型,自动生成符合目标规范的大规模高质量数据;3)内嵌语言学知识:从各种语言学知识库中挖掘有用知识,构建大规模词语搭配网络,进而基于图嵌入表示学习,将词语搭配知识融入到深层神经网络模型。基于以上探索,最终建立一个适用于多源网络文本的高性能汉语依存句法分析平台。

项目摘要

句法分析是自然语言处理领域核心基础分析任务之一。目前依存句法分析的主要挑战是如何精准分析有别于规范新闻文本的网络文本。本项目在基础模型和算法、异构数据转化和融合、数据集构建和评测组织、领域移植、句法信息的利用、语义分析技术六个方面,做出了一些有价值的工作。主要成果包括:共发表论文38篇,其中CCF-A类论文6篇(3篇ACL),CCF-B类论文10篇,一篇NLPCC-2020论文(CCF-C类)被评为大会最佳论文;授权专利6项;构建4个数据集,组织3次评测,公开发布新构建的数据集;参加6次国内外技术评测(语义分析和文本纠错),且取得第一名。人才培养方面,4名博士生毕业,9名硕士生毕业(1名继续读博),4名硕士生转博,2名同学分别获得2021和2022年度江苏省优秀学术型硕士论文。.在所有成果中,我们认为最重要的两个是:1)我们构建了多领域汉语开放依存树库CODT,包含16万句,覆盖21个领域,为未来跨领域句法分析研究提供了坚实的基础;2)我们提出了快速准确的基于TreeCRF的依存和短语句法分析技术,对应ACL-2020和IJCAI-2020论文。据谷歌学者统计,两篇论文分别被引用79和43次。基于这两个工作,我们创建了并积极维护GitHub开源项目SuPar(苏州大学句法语义分析器)。SuPar项目凝聚了最新句法语义分析相关技术,累计星标676次,下载2万余次。.此外,我们创建并持续维护两个平台:汉语理解平台(CUP)和自然语言数据标注平台(NLDAP)。CUP平台凝聚了我们在词法、句法、语义分析方面的核心技术;NLDAP平台则支持各种类型的自然语言处理数据集的构建。.最后,真诚感谢国家自然科学基金委的对本项目的支持以及在促进我国科研发展上的努力。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

基于二维材料的自旋-轨道矩研究进展

基于二维材料的自旋-轨道矩研究进展

DOI:10.7498/aps.70.20210004
发表时间:2021

李正华的其他基金

批准号:31800106
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:49503044
批准年份:1995
资助金额:12.00
项目类别:青年科学基金项目
批准号:61771092
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:61103148
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:61502325
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

汉语依存句法分析若干关键技术研究

批准号:60803093
批准年份:2008
负责人:车万翔
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
2

基于大规模无标注语料的跨领域跨语言汉语依存句法分析

批准号:61572338
批准年份:2015
负责人:陈文亮
学科分类:F0211
资助金额:63.00
项目类别:面上项目
3

基于依存图的汉语依存分析技术研究

批准号:61170181
批准年份:2011
负责人:陈家骏
学科分类:F0211
资助金额:55.00
项目类别:面上项目
4

知识驱动的视频文本描述生成

批准号:61702511
批准年份:2017
负责人:杨小汕
学科分类:F0210
资助金额:29.00
项目类别:青年科学基金项目