Syntactic and Semantic parsing is aimed to generate syntactic structure of natural language sentences and assign proper semantic roles to their constituents.Since syntactic and semantic parser is key component of many natural language appliactions, such as Machine Translation, Information Retrieval, Natural Language User Interface etc., high performance syntactic and semantic paring with satisficatory accuracy is essential to research and development of successful natural language applications. However, state-of-art syntactic and semantic parsing is still error-prone. As we believe, the possible reasons of such low performance might include: (1)limitations in learning capacity of linear machine learning techniques dominating the field, (2)the over-reliance on manual feature engineering, (3)the over-reliance on limited annotated data and (4)the lack of means of joint training. In this project, we propose to use deep learning strategy in Chinese syntactic and semantic parsing, which we beilieve to be a possible way to get away from the current plight of the field or at least to alleviate the problem facing the field. With the adequate preliminary preparation we have already conducted and the well-designed research program, we believe that improvement could be expected.The project focuses on fundamental issues in Chinese syntactic and semantic parsing, however, its outcome will be meaningful and utilizable in devloping application of Chinese language processing.
句法语义分析的主要任务是:对于输入的自然语言句子,运用计算模型和算法得到句子的句法结构并给句子成分赋以语义角色。句法语义分析是机器翻译、信息提取、自然语言人机接口等应用系统的核心部件,准确高效的句法语义分析对这些应用系统的成功研发有着不可估量的作用。目前句法语义分析在方法上还存在多方面的缺陷,如主要依赖线性化的机器学习技术、过度依赖人工特征工程和有限的标注数据、缺乏有效的联合训练手段,限制了句法语义分析技术的性能。本项目拟将深层学习机制用于汉语句法语义分析,针对目前句法语义分析研究表现出的问题进行探索并期望取得进展。项目除对句法语义分析的基础方法进行探索外,其成果也将能直接支持汉语信息处理应用系统的开发和研究,具有重要的理论意义和应用价值。
词法、句法语义分析是自然语言处理的基础问题,也是机器翻译、信息提取、自然语言人机接口等应用系统的核心组成部分。传统汉语词法、句法语义分析方法主要依赖条件随机场(CRF)、支持向量机(SVM)等浅层(对数)线性机器学习技术,过度依赖人工特征工程,也无法充分利用异质异构异语标注资源,限制了词法、句法语义分析系统的分析性能。.本项目将深度学习机制引入汉语词法、句法语义分析建模,系统研究了非线性神经网络方法、自动特征学习和抽象、融合异质异构异语标注资源等问题,并取得如下重要进展:.(1) 对深度汉语分词模型进行了系统研究,提出了一种基于大间隔原则的张量神经网络分词模型,实现了人工特征工程的大幅简化,通过引入张量变换,我们的分词模型可以更好地捕捉特征交互和特征组合,并在基于少量特征的前提下,取得了传统模型基于大量人工特征工程所取得的分词精度。.(2) 对深度图解码依存句法分析模型进行了系统研究,我们的模型摈弃了代价高昂的高阶图分解策略,转而利用双向LSTM及LSTM-Minus进行词语和语段的嵌入表示学习,从而更好地捕获了远距离句法依存关系。同时我们也提出一种面向结构预测问题的新型激活函数tanh-cube,与传统激活函数相比,该函数可以有效地捕获特征之间的复杂交互作用。与传统高阶模型相比,我们的模型实现了特征工程的大幅简化(基本模型只使用三个原子特征)。我们的模型虽是一阶解码模型,但在分析精度和分析速度两个方面都取得优于传统高阶模型的分析效果。.(3) 对深度语义角色标注方法进行了系统研究。提出了一种基于双向LSTM机制的汉语语义角色标注模型,大幅简化了人工特征工程,并取得分析精度的提升。同时我们还分别提出了一种融合异质异构语义标注资源及一种融合异语语义标注资源的汉语语义角色标注方法,进一步改善了汉语语义角色标注模型的精度。.作为基础组件,本项目所取得的成果对汉语信息处理应用系统的开发和研究也具有潜在应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于组合范畴语法的汉语深层句法分析
词汇、句法和语义—基于认知实验的汉语加工过程研究
基于规则学习汉语语义构词研究
基于用户签到行为变化的深层语义分析研究