基于大规模无标注语料的跨领域跨语言汉语依存句法分析

基本信息
批准号:61572338
项目类别:面上项目
资助金额:63.00
负责人:陈文亮
学科分类:
依托单位:苏州大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:李正华,钱忠,孙静,马春平,郁俊杰,陈志鹏,龚慧敏
关键词:
依存句法分析汉语依存分析依存结构句法分析领域自适应
结项摘要

Dependency parsing is an important research topic in Natural Language Processing. The accuracies of Chinese dependency parsers are much lower than English dependency parsers. It becomes one of the bottlenecks of Chinese dependency parsing. To tackle with the problems of data sparseness and domain adaptation in Chinese dependency parsing, this project aims to utilize multi-domain and multi-lingual large unlabeled data to improve Chinese dependency parsing, especially on web data. The main content includes: 1) Build a framework of multi-level dependency relation representations based on large unlabeled data; 2) Perform cross-domain transfer learning for Chinese dependency parsing using multi-domain large unlabeled data; 3) Perform cross-lingual transfer learning for Chinese dependency parsing using multi-lingual large unlabeled data; 4) Propose a new Chinese dependency parsing model which can use multi-feature representations and design new decoding algorithms for the model. Based on the above techniques, we build a platform for Chinese dependency parsing. This project will make important contributions for Chinese dependency parsing and provide reliable parse trees for further applications.

依存句法分析是自然语言处理的一个核心问题。与英语依存分析相比,汉语依存分析在性能上还存在较大差距,成为制约中文信息处理的一个瓶颈。本项目针对汉语依存分析中存在的人工标注训练语料不足和领域自适应能力差等关键问题,重点探索如何利用大规模多领域跨语言无标注语料来改进汉语依存分析性能,特别是在处理互联网文本时的依存分析性能,大力提高汉语依存分析的研究水平。为此,本项目拟从四个方面开展创新性研究:1)研究基于大规模无标注语料的依存特征表示体系;2)研究基于大规模多领域语料的面向互联网文本分析的跨领域迁移学习;3)研究基于大规模跨语言语料的面向汉语依存分析的跨语言迁移学习;4)研究基于多信息源的汉语依存句法分析模型和解码算法。最后,集成上述研究成果,构建一个领域自适应能力强的高性能汉语依存分析平台。本项目的开展将为汉语依存句法分析研究作出重要贡献,并为后续应用研究提供有力支持。

项目摘要

依存结构句法分析是对句子进行结构分析,以得到句子中词与词之间依赖关系的处理过程。它是自然语言处理的一个核心问题。与英文依存分析相比,汉语依存分析的性能还存在较大差距,成为制约中文信息处理的一个瓶颈。本项目针对汉语依存分析中存在的人工标注训练语料不足和领域自适应能力差等关键问题,重点探索如何利用大规模多领域跨语言无标注语料改进汉语依存分析性能,大力提高汉语依存分析的研究水平。项目开展四年来,课题组主要在如下方面进行探索研究:1)研究基于大规模无标注语料的依存特征表示体系;2)研究基于大规模无标注语料的跨领域跨语言迁移学习;3)研究基于多信息源的汉语依存句法分析模型和解码算法;4)研究如何与后续应用之间的交互。主要成果如下:1)发表17篇论文,其中领域内顶级会议论文5篇、顶级期刊论文3篇;2)申请专利5项,软件著作权2项;3)培养7名硕士生和2名博士生;4)实现一个汉语语言分析平台。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

陈文亮的其他基金

批准号:61876115
批准年份:2018
资助金额:62.00
项目类别:面上项目
批准号:51875283
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:61203314
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:81402926
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81671727
批准年份:2016
资助金额:56.00
项目类别:面上项目
批准号:30700168
批准年份:2007
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于大规模部分标注数据的依存句法分析

批准号:61502325
批准年份:2015
负责人:李正华
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
2

汉语跨标点句句法分析方法研究

批准号:60872121
批准年份:2008
负责人:宋柔
学科分类:F0113
资助金额:30.00
项目类别:面上项目
3

知识驱动的汉语网络文本依存句法分析

批准号:61876116
批准年份:2018
负责人:李正华
学科分类:F0606
资助金额:64.00
项目类别:面上项目
4

汉语依存句法分析若干关键技术研究

批准号:60803093
批准年份:2008
负责人:车万翔
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目