基于深层学习的汉语句法语义分析研究

基本信息

批准号：61273318

项目类别：面上项目

资助金额：80.00

负责人：常宝宝

学科分类：

依托单位：北京大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：詹卫东,何卫,王雷,李月伦,马尔胡甫,韩冬煦,刘洪超,马腾

关键词：

汉语句法语义分析语义角色标记深层学习多任务学习

结项摘要

Syntactic and Semantic parsing is aimed to generate syntactic structure of natural language sentences and assign proper semantic roles to their constituents.Since syntactic and semantic parser is key component of many natural language appliactions, such as Machine Translation, Information Retrieval, Natural Language User Interface etc., high performance syntactic and semantic paring with satisficatory accuracy is essential to research and development of successful natural language applications. However, state-of-art syntactic and semantic parsing is still error-prone. As we believe, the possible reasons of such low performance might include: (1)limitations in learning capacity of linear machine learning techniques dominating the field, (2)the over-reliance on manual feature engineering, (3)the over-reliance on limited annotated data and (4)the lack of means of joint training. In this project, we propose to use deep learning strategy in Chinese syntactic and semantic parsing, which we beilieve to be a possible way to get away from the current plight of the field or at least to alleviate the problem facing the field. With the adequate preliminary preparation we have already conducted and the well-designed research program, we believe that improvement could be expected.The project focuses on fundamental issues in Chinese syntactic and semantic parsing, however, its outcome will be meaningful and utilizable in devloping application of Chinese language processing.

句法语义分析的主要任务是：对于输入的自然语言句子，运用计算模型和算法得到句子的句法结构并给句子成分赋以语义角色。句法语义分析是机器翻译、信息提取、自然语言人机接口等应用系统的核心部件，准确高效的句法语义分析对这些应用系统的成功研发有着不可估量的作用。目前句法语义分析在方法上还存在多方面的缺陷，如主要依赖线性化的机器学习技术、过度依赖人工特征工程和有限的标注数据、缺乏有效的联合训练手段，限制了句法语义分析技术的性能。本项目拟将深层学习机制用于汉语句法语义分析，针对目前句法语义分析研究表现出的问题进行探索并期望取得进展。项目除对句法语义分析的基础方法进行探索外，其成果也将能直接支持汉语信息处理应用系统的开发和研究，具有重要的理论意义和应用价值。

项目摘要

词法、句法语义分析是自然语言处理的基础问题，也是机器翻译、信息提取、自然语言人机接口等应用系统的核心组成部分。传统汉语词法、句法语义分析方法主要依赖条件随机场(CRF)、支持向量机(SVM)等浅层(对数)线性机器学习技术，过度依赖人工特征工程，也无法充分利用异质异构异语标注资源，限制了词法、句法语义分析系统的分析性能。.本项目将深度学习机制引入汉语词法、句法语义分析建模，系统研究了非线性神经网络方法、自动特征学习和抽象、融合异质异构异语标注资源等问题，并取得如下重要进展：.(1) 对深度汉语分词模型进行了系统研究，提出了一种基于大间隔原则的张量神经网络分词模型，实现了人工特征工程的大幅简化，通过引入张量变换，我们的分词模型可以更好地捕捉特征交互和特征组合，并在基于少量特征的前提下，取得了传统模型基于大量人工特征工程所取得的分词精度。.(2) 对深度图解码依存句法分析模型进行了系统研究，我们的模型摈弃了代价高昂的高阶图分解策略，转而利用双向LSTM及LSTM-Minus进行词语和语段的嵌入表示学习，从而更好地捕获了远距离句法依存关系。同时我们也提出一种面向结构预测问题的新型激活函数tanh-cube，与传统激活函数相比，该函数可以有效地捕获特征之间的复杂交互作用。与传统高阶模型相比，我们的模型实现了特征工程的大幅简化（基本模型只使用三个原子特征）。我们的模型虽是一阶解码模型，但在分析精度和分析速度两个方面都取得优于传统高阶模型的分析效果。.(3) 对深度语义角色标注方法进行了系统研究。提出了一种基于双向LSTM机制的汉语语义角色标注模型，大幅简化了人工特征工程，并取得分析精度的提升。同时我们还分别提出了一种融合异质异构语义标注资源及一种融合异语语义标注资源的汉语语义角色标注方法，进一步改善了汉语语义角色标注模型的精度。.作为基础组件，本项目所取得的成果对汉语信息处理应用系统的开发和研究也具有潜在应用价值。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：

发表时间：2017

DOI：10.7498/aps.68.20181682

发表时间：2019

常宝宝的其他基金

批准号：60303003

批准年份：2003

资助金额：24.00

项目类别：青年科学基金项目

批准号：60975054

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：61876004

批准年份：2018

资助金额：62.00

项目类别：面上项目

相似国自然基金

基于组合范畴语法的汉语深层句法分析

批准号：61300064

批准年份：2013

负责人：孙薇薇

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

词汇、句法和语义—基于认知实验的汉语加工过程研究

批准号：60083005

批准年份：2000

负责人：孙茂松

学科分类：F0211

资助金额：13.00

项目类别：专项基金项目

基于规则学习汉语语义构词研究

批准号：61272215

批准年份：2012

负责人：亢世勇

学科分类：F0211

资助金额：72.00

项目类别：面上项目

基于用户签到行为变化的深层语义分析研究

批准号：61702355

批准年份：2017

负责人：崔琳

学科分类：F0607

资助金额：21.00

项目类别：青年科学基金项目

基于深层学习的汉语句法语义分析研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

现代优化理论与应用

基于SSR 的西南地区野生菰资源遗传多样性及遗传结构分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

常宝宝的其他基金

基于最大熵原则的汉语句法分析和语义角色标注研究

句法制导的统计汉语句义分析方法研究

基于深度学习的数据-文本生成技术研究

相似国自然基金

基于深层学习的汉语句法语义分析研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

现代优化理论与应用

基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

常宝宝的其他基金

基于最大熵原则的汉语句法分析和语义角色标注研究

句法制导的统计汉语句义分析方法研究

基于深度学习的数据-文本生成技术研究

相似国自然基金

基于SSR 的西南地区野生菰资源遗传多样性及遗传结构分析