Dependency parsing is a key research task in the natural language processing field. In recent years, deep learning methods have achieved huge success in dependency parsing, and greatly improved parsing accuracy on Chinese canonical news texts from 79% to 85%. At present, the major challenge for dependency parsing is how to accurately analyze web texts that are dramatically different from the canonical news texts. To meet this challenge, this project plans to make in-depth exploration and effective utilization of three kinds of knowledge sources. 1) Direct external knowledge. Aiming at multi-source web texts, we first design a scientific annotation guideline for dependency parsing, and then manually annotate a large-scale data with syntactic trees, as a solid foundation for following research. 2) Indirect external knowledge. In order to effectively exploit various existing heterogeneous treebanks, we first manually annotate small-scale bi-tree aligned data, and then build supervised treebank conversion models based on the combination of pattern embedding and tree-structured recurrent neural network, and finally automatically generate large-scale high-quality data complying with our target guideline. 3) Interior linguistic knowledge. We first collect useful information from various linguistic knowledge bases and compile a large-scale word collocation network, and then employ graph embedding representation learning to incorporate the word collocation knowledge into deep neural network based parsing models. Based on the above explorations, we plan to build a robust and high-accuracy dependency parsing platform that can reliably analyze multi-source web texts.
依存句法分析是自然语言处理领域的关键研究任务。近几年来,深度学习方法在依存句法分析任务上取得了很大成功,将汉语规范新闻文本上的分析准确率从79%大幅提高到85%。目前依存句法分析的主要挑战是如何精准分析有别于规范新闻文本的网络文本。为应对这一挑战,本项目拟深入探索并有效利用三种类型的知识。1)直接外部知识:面向多源网络文本,制定科学的依存句法标注规范,并标注大规模句法数据,为下一步工作打下扎实的基础;2)间接外部知识:针对已有多源异构树库,人工标注小规模双树对齐数据,构建基于模式嵌入和树形循环神经网络的有监督树库转化模型,自动生成符合目标规范的大规模高质量数据;3)内嵌语言学知识:从各种语言学知识库中挖掘有用知识,构建大规模词语搭配网络,进而基于图嵌入表示学习,将词语搭配知识融入到深层神经网络模型。基于以上探索,最终建立一个适用于多源网络文本的高性能汉语依存句法分析平台。
句法分析是自然语言处理领域核心基础分析任务之一。目前依存句法分析的主要挑战是如何精准分析有别于规范新闻文本的网络文本。本项目在基础模型和算法、异构数据转化和融合、数据集构建和评测组织、领域移植、句法信息的利用、语义分析技术六个方面,做出了一些有价值的工作。主要成果包括:共发表论文38篇,其中CCF-A类论文6篇(3篇ACL),CCF-B类论文10篇,一篇NLPCC-2020论文(CCF-C类)被评为大会最佳论文;授权专利6项;构建4个数据集,组织3次评测,公开发布新构建的数据集;参加6次国内外技术评测(语义分析和文本纠错),且取得第一名。人才培养方面,4名博士生毕业,9名硕士生毕业(1名继续读博),4名硕士生转博,2名同学分别获得2021和2022年度江苏省优秀学术型硕士论文。.在所有成果中,我们认为最重要的两个是:1)我们构建了多领域汉语开放依存树库CODT,包含16万句,覆盖21个领域,为未来跨领域句法分析研究提供了坚实的基础;2)我们提出了快速准确的基于TreeCRF的依存和短语句法分析技术,对应ACL-2020和IJCAI-2020论文。据谷歌学者统计,两篇论文分别被引用79和43次。基于这两个工作,我们创建了并积极维护GitHub开源项目SuPar(苏州大学句法语义分析器)。SuPar项目凝聚了最新句法语义分析相关技术,累计星标676次,下载2万余次。.此外,我们创建并持续维护两个平台:汉语理解平台(CUP)和自然语言数据标注平台(NLDAP)。CUP平台凝聚了我们在词法、句法、语义分析方面的核心技术;NLDAP平台则支持各种类型的自然语言处理数据集的构建。.最后,真诚感谢国家自然科学基金委的对本项目的支持以及在促进我国科研发展上的努力。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于二维材料的自旋-轨道矩研究进展
汉语依存句法分析若干关键技术研究
基于大规模无标注语料的跨领域跨语言汉语依存句法分析
基于依存图的汉语依存分析技术研究
知识驱动的视频文本描述生成