基于数据驱动的中文自然语言生成关键技术研究

基本信息

批准号：61202248

项目类别：青年科学基金项目

资助金额：25.00

负责人：袁彩霞

学科分类：

依托单位：北京邮电大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：吴旭,刘咏彬,陈佳林,刘松,姜邵魏,王婵,季成晖,孙励

关键词：

上下文无关语法噪声信道模型自然语言生成概念短语层级树

结项摘要

Making computers learn to generate natural language is a critical scientific problem, and also a key technique for solving tasks like man-machine dialogue, machine translation and text summarization. The aim of this project is to develop techniques for generating Chinese natural language. By utilizing the language formalization theory and statistical analysis method in natural language understanding, we provide an effective way reducing deveplopment cost of the current NLG system, meanwhile improving its scalability and robustness. The research content includes: 1. Towards domain independent NLG representation based on context-free grammar (CFG), starting from a straightforward CFG parsing result, automatically build the concept-phrase hierarchical tree for natural language generation engine, via which explicitly describe the generation space. 2. Towards noise-channel model for generation strategy planning, carry out deep and surface realization in a unified way, and enhance its technologies in terms of reusability, scalability and robustness by exploring the statistical advantages of knowledge-driven language model and dynamic decoding algorithm. 3. Towards evaluation techniques and data development for Chinese language generation, develop a suite of shared data and text processing tools, and thereby propose a scientific and systematic way for acessing Chinese language generation techniques.

如何让计算机生成人类可以理解的语言，是一个重要的科学问题，同时也是实现人机自然交互、机器翻译、文本摘要等任务的重要技术手段。本课题以中文自然语言生成为具体任务，探索语言理解过程中的形式化理论及统计学习方法在语言生成中的应用，为提升现有语言生成技术的可重用性及鲁棒性、降低系统开发代价寻求有效途径。研究内容包括：1.基于上下文无关语法的生成空间描述，借鉴语言理解中的句法分析方法，自动构建以语言生成为目的的概念短语层级树；2.基于噪声信道模型的生成决策规划，进行深层结构及表层结构的统一实现，充分利用基于知识驱动的语言模型及基于动态规划的解码算法的概率特性及领域无关特性，提高系统的可重用性及鲁棒性；3.针对中文自然语言生成系统的评测数据及评测技术研究，研制并开放一套用于汉语语言生成技术评测的标准数据及基础工具，为汉语语言生成技术提供科学一致的评测方法。

项目摘要

目前，主流的自然语言生成（NLG）技术普遍面临缺少良好的形式化方法、领域可重用性及鲁棒性差等挑战。本课题旨在探索语言理解过程的形式化理论及方法在语言生成中的应用，重点研究基于概率上下文无关文法（PCFG）的汉语自然语言生成技术，具体地，采用概率上下文无关文法对语义项及其对应自然语言句子描述之间的隐藏关系进行编码，对于输入的语义项，自然语言生成问题就转化为如何解码得到最优句法树的问题。这一研究思想不仅提供了一种有效的自然语言生成的形式化方法，而且有效提高了自然语言生成系统的可重用性及鲁棒性，同时，为其它基于数据驱动的自然语言生成技术的进一步研究打下了扎实的基础。. 三年来，本项目严格按照计划执行，课题总体进展顺利，达成预期的研究目标。特别是：(1)在语言生成过程形式化方面，借鉴语言理解的形式化理论，提出了基于决策森林的生成空间表示方法与基于概率上下文无关文法的生成过程形式化方法，通过自动归纳获取用于语言生成的PCFG规则，将生成过程表示为定义良好的、包含概念、短语、词汇多层级的决策森林；(2)在生成决策优化方面，提出了一种可以融合多元特征的解码算法，同时完成句子规划与表层实现，充分利用从大量无标记语料习得的语言模型知识、语义项之间的结构依赖关系、词组之间的长距离相依关系，显著提高了生成的句子的质量；(3)在自然语言生成技术的评价方面，采用不同领域、不同风格及不同文本长度的5个评测数据，对生成系统进行了量化分析，评测表明，本课题的研究方法在确保生成高质量的自然语言的同时，可以有效提升系统的复用性及鲁棒性，极大降低系统的开发代价。. 经过三年的研究，我们在SIGGEN、CCL、NLPCC等重要国际国内会议和期刊上发表了论文10篇，已受理专利2项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

袁彩霞的其他基金

批准号：21001070

批准年份：2010

资助金额：19.00

项目类别：青年科学基金项目

批准号：21471092

批准年份：2014

资助金额：85.00

项目类别：面上项目

相似国自然基金

自然语言理解及正文生成技术研究

批准号：68875004

批准年份：1988

负责人：金婉瑛

学科分类：F03

资助金额：2.50

项目类别：面上项目

面向知识图谱自然语言问答的结构化查询生成关键技术研究

批准号：61902074

批准年份：2019

负责人：郑卫国

学科分类：F0202

资助金额：27.00

项目类别：青年科学基金项目

情感驱动的人机交互中文本语音情感信息耦合关键技术研究

批准号：61203315

批准年份：2012

负责人：孙晓

学科分类：F0604

资助金额：24.00

项目类别：青年科学基金项目

数据驱动的视频编码关键技术研究

批准号：61701310

批准年份：2017

负责人：王妙辉

学科分类：F0108

资助金额：28.00

项目类别：青年科学基金项目

基于数据驱动的中文自然语言生成关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于综合治理和水文模型的广西县域石漠化小流域区划研究

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

水中溴代消毒副产物的生成综述

袁彩霞的其他基金

靶向蛋白酪氨酸磷酸酶抗肿瘤铂配合物的设计、合成及作用机理研究

肝再生磷酸酶-3和法尼基酶双靶点锌配合物抑制剂的设计、合成及抗肿瘤活性研究

相似国自然基金