基于深层学习的汉语句法语义分析研究

基本信息
批准号:61273318
项目类别:面上项目
资助金额:80.00
负责人:常宝宝
学科分类:
依托单位:北京大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:詹卫东,何卫,王雷,李月伦,马尔胡甫,韩冬煦,刘洪超,马腾
关键词:
汉语句法语义分析语义角色标记深层学习多任务学习
结项摘要

Syntactic and Semantic parsing is aimed to generate syntactic structure of natural language sentences and assign proper semantic roles to their constituents.Since syntactic and semantic parser is key component of many natural language appliactions, such as Machine Translation, Information Retrieval, Natural Language User Interface etc., high performance syntactic and semantic paring with satisficatory accuracy is essential to research and development of successful natural language applications. However, state-of-art syntactic and semantic parsing is still error-prone. As we believe, the possible reasons of such low performance might include: (1)limitations in learning capacity of linear machine learning techniques dominating the field, (2)the over-reliance on manual feature engineering, (3)the over-reliance on limited annotated data and (4)the lack of means of joint training. In this project, we propose to use deep learning strategy in Chinese syntactic and semantic parsing, which we beilieve to be a possible way to get away from the current plight of the field or at least to alleviate the problem facing the field. With the adequate preliminary preparation we have already conducted and the well-designed research program, we believe that improvement could be expected.The project focuses on fundamental issues in Chinese syntactic and semantic parsing, however, its outcome will be meaningful and utilizable in devloping application of Chinese language processing.

句法语义分析的主要任务是:对于输入的自然语言句子,运用计算模型和算法得到句子的句法结构并给句子成分赋以语义角色。句法语义分析是机器翻译、信息提取、自然语言人机接口等应用系统的核心部件,准确高效的句法语义分析对这些应用系统的成功研发有着不可估量的作用。目前句法语义分析在方法上还存在多方面的缺陷,如主要依赖线性化的机器学习技术、过度依赖人工特征工程和有限的标注数据、缺乏有效的联合训练手段,限制了句法语义分析技术的性能。本项目拟将深层学习机制用于汉语句法语义分析,针对目前句法语义分析研究表现出的问题进行探索并期望取得进展。项目除对句法语义分析的基础方法进行探索外,其成果也将能直接支持汉语信息处理应用系统的开发和研究,具有重要的理论意义和应用价值。

项目摘要

词法、句法语义分析是自然语言处理的基础问题,也是机器翻译、信息提取、自然语言人机接口等应用系统的核心组成部分。传统汉语词法、句法语义分析方法主要依赖条件随机场(CRF)、支持向量机(SVM)等浅层(对数)线性机器学习技术,过度依赖人工特征工程,也无法充分利用异质异构异语标注资源,限制了词法、句法语义分析系统的分析性能。.本项目将深度学习机制引入汉语词法、句法语义分析建模,系统研究了非线性神经网络方法、自动特征学习和抽象、融合异质异构异语标注资源等问题,并取得如下重要进展:.(1) 对深度汉语分词模型进行了系统研究,提出了一种基于大间隔原则的张量神经网络分词模型,实现了人工特征工程的大幅简化,通过引入张量变换,我们的分词模型可以更好地捕捉特征交互和特征组合,并在基于少量特征的前提下,取得了传统模型基于大量人工特征工程所取得的分词精度。.(2) 对深度图解码依存句法分析模型进行了系统研究,我们的模型摈弃了代价高昂的高阶图分解策略,转而利用双向LSTM及LSTM-Minus进行词语和语段的嵌入表示学习,从而更好地捕获了远距离句法依存关系。同时我们也提出一种面向结构预测问题的新型激活函数tanh-cube,与传统激活函数相比,该函数可以有效地捕获特征之间的复杂交互作用。与传统高阶模型相比,我们的模型实现了特征工程的大幅简化(基本模型只使用三个原子特征)。我们的模型虽是一阶解码模型,但在分析精度和分析速度两个方面都取得优于传统高阶模型的分析效果。.(3) 对深度语义角色标注方法进行了系统研究。提出了一种基于双向LSTM机制的汉语语义角色标注模型,大幅简化了人工特征工程,并取得分析精度的提升。同时我们还分别提出了一种融合异质异构语义标注资源及一种融合异语语义标注资源的汉语语义角色标注方法,进一步改善了汉语语义角色标注模型的精度。.作为基础组件,本项目所取得的成果对汉语信息处理应用系统的开发和研究也具有潜在应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019

常宝宝的其他基金

批准号:60303003
批准年份:2003
资助金额:24.00
项目类别:青年科学基金项目
批准号:60975054
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:61876004
批准年份:2018
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于组合范畴语法的汉语深层句法分析

批准号:61300064
批准年份:2013
负责人:孙薇薇
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
2

词汇、句法和语义—基于认知实验的汉语加工过程研究

批准号:60083005
批准年份:2000
负责人:孙茂松
学科分类:F0211
资助金额:13.00
项目类别:专项基金项目
3

基于规则学习汉语语义构词研究

批准号:61272215
批准年份:2012
负责人:亢世勇
学科分类:F0211
资助金额:72.00
项目类别:面上项目
4

基于用户签到行为变化的深层语义分析研究

批准号:61702355
批准年份:2017
负责人:崔琳
学科分类:F0607
资助金额:21.00
项目类别:青年科学基金项目