基于组合范畴语法的汉语深层句法分析

基本信息
批准号:61300064
项目类别:青年科学基金项目
资助金额:23.00
负责人:孙薇薇
学科分类:
依托单位:北京大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:周新杰,谭继伟,姚金戈,唐学伟,杜彦涛,胡玥,闫肃
关键词:
组合范畴语法精粒度词法范畴标注深层句法分析句法分析
结项摘要

Compared to shallow phrase-structure and dependency parsing, deep parsing can provide more detailed syntactic information and better integrated interface for composition semantics. It has drawn more and more attention in the past several years. This proposal is concerned with Chinese deep parsing based on Combinatory Categorial Grammars (CCG). The goal is to develop better deep parsing techniques, especially for the Chinese language. First, we will study (1) deep lexical processing techniques for lexical disambiguation and (2) semantics-driven models for syntactic disambiguation, which are the core modules of a deep parser. In addition, we will study (1) hybrid discriminative and symbol-refined generative learing, (2) heterogeneous treebank ensemble and (3) unsupervised lexical acquisition. These advanced statistical machine learning techniques can be applied to enhance deep parsers as well as many other NLP systems. We propose to study both linguistic and computational problems in deep parsing, and to build high-quality language understanding systems for Chinese.Our research will benefit research on text mining, question answering, machine translation, just to name a few.

深层句法分析旨在获取比传统的短语结构分析和依存分析更为深层的语法信息,并提供通向组合语义分析的透明接口,是近些年兴起的一个重要研究课题。本项目提出基于组合范畴语法来研究汉语深层句法分析,力图在范畴语法和汉语句法分析两方面取得创新性成果和研究性进展,为汉语的语义理解等深层文本分析任务提供支撑。为实现这一目标,我们将着重研究基于深层词汇计算的词法消歧和语义驱动的句法消歧等两项深层句法分析的核心技术,构建汉语深层句法分析器。在此基础上,将进一步研究辨别式与隐变量生成模型的集成学习,异质数据融合以及无指导词汇归纳等三个统计机器学习问题,藉此从学习算法和拓展数据源两个方面来改进深层句法分析。本项目的最终目标是探索汉语深层句法分析问题、研究相关核心技术并构建高质量的语言理解系统,从而为文本数据挖掘、问答系统、机器翻译等研究领域提供有益参考。

项目摘要

本项目旨在研究针对汉语言理解的深层语言处理技术。特别地,我们的深层分析技术以组合范畴语法作为的理论支撑。.为了提供高效率的深层分析以服务各种自然语言处理应用,在本项目的初始阶段,我们着力研究了基于增量式分析架构的组合范畴语法分析算法并使用Java语言实现了相关系统。尽管我们的系统在分析精度的度量下接近CCG最佳分析水准,且兼具高效率,它仍然受困于鲁棒性的问题。鲁棒性问题的根源是组合范畴语法所带来的数量庞大的硬性语法限制。具体而言,当我们的语法分析器能够分析一个句子的时候,其所提供的分析的质量是比较令人满意的,但问题在于这个分析器只能分析约75%的句子。这个鲁棒性问题也同样地困扰基于其他语法范式的深层语言分析系统。我们重新审视我们的目标,我们的目标是为汉语提供深层分析,而组合范畴语法分析的最终结果是以词与词之间的二元依存关系为要素的深层依存结构。为什么不直接生成这样的图表征呢?受到传统的表层依存分析研究的启发,在本项目的第二阶段,我们针对数据驱动的分析技术展开了讨论。我们研究了两大类分析模型:基于状态转换的模型和基于因子分解的模型。不同于既有的针对树型的工作,我们的目标结构是更加一般依存图。在基于状态转换的分析方法框架下,我们提出了三个新的状态转换系统,这些转换系统可以生出更一般的图。基于新的转换系统我们实现了分析器,这个分析器达到了CCG分析的既有的最佳分析水平。不仅在分析精度上取得了好的结果,在分析效率上,我们的分析器取得了经验线性时间的分析效率。在基于因子分解的方法框架下,我们设计并实现了一个二阶分析器。理论上,我们证明了二阶分析是一个NP难问题;在实际系统构建上,我们提出了一个基于拉格朗日松弛这一组合优化技术的解码器。这个解码器取得了非常好的解码效果,显著提升了CCG分析的既有的最佳分析水平。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
2

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
3

甘肃省粗颗粒盐渍土易溶盐含量、电导率与粒径的相关性分析

甘肃省粗颗粒盐渍土易溶盐含量、电导率与粒径的相关性分析

DOI:10.13885/j.issn.0455-2059.2021.04.004
发表时间:2021
4

长链烯酮的组合特征及其对盐度和母源种属指示意义的研究进展

长链烯酮的组合特征及其对盐度和母源种属指示意义的研究进展

DOI:10.16441/j.cnki.hdxb.20190247
发表时间:2019
5

多种监测手段在滑坡变形中的组合应用

多种监测手段在滑坡变形中的组合应用

DOI:10.16251/j.cnki.1009-2307.2019.11.017
发表时间:2019

孙薇薇的其他基金

相似国自然基金

1

基于语法制导的汉语语法、语义一体化深度分析技术研究

批准号:61370155
批准年份:2013
负责人:吴宏林
学科分类:F0211
资助金额:76.00
项目类别:面上项目
2

汉语跨标点句句法分析方法研究

批准号:60872121
批准年份:2008
负责人:宋柔
学科分类:F0113
资助金额:30.00
项目类别:面上项目
3

知识驱动的汉语网络文本依存句法分析

批准号:61876116
批准年份:2018
负责人:李正华
学科分类:F0606
资助金额:64.00
项目类别:面上项目
4

GPSG理论用于汉语语句的句法分析的研究

批准号:68773035
批准年份:1987
负责人:戴大为
学科分类:F0211
资助金额:2.00
项目类别:面上项目