基于含隐结构变量的结构化预测模型的中文语义解析研究

基本信息

批准号：61073119

项目类别：面上项目

资助金额：28.00

负责人：周俊生

学科分类：

依托单位：南京师范大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：曲维光,陈小荷,李斌,朱少楠,张春菊,丁德鑫,徐涛,张一哲,刘金克

关键词：

结构化预测模型自然语言交互语义解析地理信息系统

结项摘要

语义解析（semantic parsing）任务的目标是将自然语言形式的句子转换成一种完全形式化的意义表示，从而使得自然语言形式的句子能够被计算机自动理解和执行。本课题针对中文的特点，研究与设计一种基于统计学习模型的鲁棒的中文语义解析实现方法。课题结合中文GIS自然语言交互这个实际应用领域，首先定义与设计有效的形式化意义表示语言，并构建相应的中文语义解析标注训练语料；通过将中文语义解析任务看成是一种结构化预测任务，提出一种基于含隐结构变量的结构化SVMs模型的中文统计语义解析算法，引入同步上下文无关文法SCFG等隐结构对输入与输出之间的对应关系进行建模，并设计相应的学习算法；进一步通过将直推式SVMs的思想扩展到含隐结构变量的结构化SVMs模型中，研究与设计一个半监督的中文语义解析算法，以利用大量未标注的查询语句实例提高和改进中文语义解析的性能。

项目摘要

语义解析是自然语言处理领域中的一个重要研究问题，它的目标是将自然语言句子转换成一种完全形式化的意义表示。针对中文语义解析相对缺乏研究的现状，我们选择中文GIS自然语言接口作为应用领域展开系统的中文语义解析研究。首先，我们结合具体应用领域设计了一个完整的函数式的形式化意义表示语言GISQL；在此基础上，我们进一步开发了一个中文语义解析标注语料库，共收集了1110条覆盖各类GIS地图查询问题的真实问题查询实例，并逐一给出了基于GISQL的意义表示的完整标注，开发了首个面向实际应用的中文语义解析标注语料库。接下来，我们将中文语义解析任务转化成一种结构化预测问题，通过引入混合树作为隐变量用于构造输入句子与输出表示结构之间的对应关系，提出了一种基于含隐结构变量的感知器模型的语义解析算法。该方法既具有判别式模型能够方便地嵌入各种灵活的特征组合表示的优点，又自然地将有效地解码算法集成在训练与推理阶段。进一步，为提高解码算法的效率与准确性，我们提出一种基于向量空间模型的意义表示产生式排序的方法用于抽取更小的产生式子集作为候选产生式集合。通过在公开英文数据集GeoQuery上的十折交叉实验结果显示，我们提出的方法在准确率、召回率以及F1-值的指标上均明显高于国外现有的其他模型与算法。为了将语义解析算法应用于中文GIS自然语言接口领域，我们首先开展了针对中文句子的相关预处理研究。提出和设计了一种基于联合模型的中文命名实体识别方法，实现将实体的边界划分和实体的类型分类两个子任务的联合处理，相对于现有的序列化标注方法，识别性能获得了显著改进。另外，我们设计了一种基于联合模型的组块分析方法，该方法能够充分利用组块层的特征，在中、英文的数据集上均获得了当前最高的实验性能。最后，我们设计与实现了一种较鲁棒的中文GIS自然语言交互系统，基于我们设计和开发的中文语义解析标注语料库，采用我们提出的含隐结构变量的感知器模型的语义解析算法，进行了十折交叉验证的实验，F1值达到了90.31％，获得了较满意的实验性能。更重要的是，本课题的研究成果证明了基于语义解析方法实现中文GIS的自然语言接口是一种有效可行的途径，因而将会进一步推动智能GIS的发展与应用普及。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.11949/0438-1157.20201662

发表时间：2021

周俊生的其他基金

批准号：61472191

批准年份：2014

资助金额：78.00

项目类别：面上项目

相似国自然基金

预测模型的结构化变量选择方法研究

批准号：71301162

批准年份：2013

负责人：李扬

学科分类：G0104

资助金额：19.00

项目类别：青年科学基金项目

基于深度学习的结构化预测模型研究

批准号：61105049

批准年份：2011

负责人：刘杰

学科分类：F0603

资助金额：24.00

项目类别：青年科学基金项目

基于本体的中文网络信息结构化研究

批准号：60403050

批准年份：2004

负责人：王挺

学科分类：F0211

资助金额：26.00

项目类别：青年科学基金项目

向量组合学习框架下基于依存混合树的中文语义解析研究

批准号：61472191

批准年份：2014

负责人：周俊生

学科分类：F0211

资助金额：78.00

项目类别：面上项目

基于含隐结构变量的结构化预测模型的中文语义解析研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

一种基于多层设计空间缩减策略的近似高维优化方法

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

LTNE条件下界面对流传热系数对部分填充多孔介质通道传热特性的影响

周俊生的其他基金

向量组合学习框架下基于依存混合树的中文语义解析研究

相似国自然基金