面向文本生成的生成式对抗网络算法与理论研究

基本信息
批准号:61773362
项目类别:面上项目
资助金额:64.00
负责人:兰艳艳
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:杨光,郭倩,李家宁,曾玮,庞亮,张海楠,高妍,肖岩
关键词:
损失函数神经网络生成式对抗网络文本生成
结项摘要

Generative adversarial network (GAN) is a new probabilistic generative model, which can be used for image or text generation. It is a frontier research topic in the field of machine learning, which has gain great attention from both academic and industry in recent years. Although GAN has gain great success in image generation, it has encountered big challenges of discrete output, sequence generation and error accumulation when facing text generation tasks. In addition, the training process is usually unstable, and sometimes mode collapse phenomenon occurs in real application. Those problems make GAN for text generation a challenging research problem. This project will conduct four-folds studies, including theoretical foundation of GAN, word embeddings based GAN, reinforced GAN, and generative adversarial network for non-sequential text generation. In the study, we aim to tackle the following central scientific problems, i.e. convergence analysis of non-convex GAN, Nash Equilibrium with high dimensional continuous space, non-differentiable GAN for discrete output, exposure bias with sequential text generation. We will apply our research studies to the application of intelligent conversation and automatic question answering system for testing. The research of this project will help design new GAN for text generation, enrich the theoretical foundations of GAN, advance the development of new machine learning technologies, and support related applications.

生成式对抗网络是一种概率生成模型,可用于图像或文本的自动生成,是机器学习领域一个新兴的前沿方向,受到学术界和产业界的广泛关注。尽管生成式对抗网络在图像生成等任务中已经取得了良好的效果,然而在文本生成领域面临着离散输出,序列生成和错误累加等挑战,实际应用中呈现出模态塌陷等训练不稳定性问题,使得面向文本生成的生成式对抗网络算法和理论研究成为一个挑战性的研究课题。针对这些挑战,本课题拟从生成式对抗网络的理论,基于词嵌入、融合强化学习和非序列化文本生成式对抗网络四个方面开展研究,重点解决非凸生成式对抗网络的收敛性,高维连续情形下的纳什均衡,面向离散输出的生成式网络不可导以及序列化文本生成的曝光偏差等关键性科学问题,并结合智能对话和自动问答等实际应用进行示范性验证。形成适合文本生成任务的生成式对抗网络的新模型,完善生成式对抗网络的理论体系,推动机器学习新技术的进步和发展,为相关应用提供支持。

项目摘要

本项目面向文本生成任务,针对离散输出,序列生成和错误累积等挑战,进行生成式对抗网络算法和理论的研究,并结合智能对话和智能写作等示范性应用进行验证。围绕研究目标,项目从生成式对抗网络的理论,基于词嵌入的生成式对抗网络,融合强化学习的文本生成式对抗网络和非序列化文本生成式对抗网络四个方面开展研究。在生成式对抗网络的理论方面,主要研究生成式对抗网络的损失函数问题,利用最优传输理论中的Wasserstein距离,将生成式对抗网络建模成最优传输理论中的寻找Kantorovich势能的问题,揭示了生成式对抗网络清晰的最优传输表示,并证明了使用二分类判别器的生成对抗网络模型的优化目标等价于加权极大似然估计的优化过程,从而可将复杂的生成对抗网络设计为加权极大似然估计或强化学习进行优化。在基于词嵌入的生成式对抗网络方面,重点研究新型的极大似然估计的方法,提出拓展关键词信息的极大似然估计、标签增强的极大似然估计算法、最大化生成似然模型和条件风险价值模型,从而得到新的基于词嵌入的生成式对抗网络,有效解决了生成对抗网络在面对文本离散数据下的不可导问题,提升了生成文本的质量。在融合强化学习的文本生成对抗网络方面,主要研究强化学习的回报函数设计,提出了三种不同类型的一致性函数,包括非学习的相似性函数,预训练的语义匹配函数,以及端到端的对偶学习模型,从而有效刻画生成文本的新颖性,话题覆盖性和句子合理性等指标,提升文本生成的质量。在非序列文本生成式对抗网络方面,从主题、文本结构和因果三个角度,研究结构化学习的文本生成方法,提升了在控制、标题、文章和反事实等特殊结构下的文本生成质量。项目组共发表41篇高水平学术论文,其中包括在本领域的重要国际会议上发表了34篇论文,在本领域重要的期刊上发表了7篇学术论文,申请了1项专利,并将所研究的算法整合在智能对话和智能写作等应用上完成了示范验证,项目还培养了7名博士生和3名硕士生,超额完成了该项目的预期研究成果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

兰艳艳的其他基金

批准号:61203298
批准年份:2012
资助金额:26.00
项目类别:青年科学基金项目

相似国自然基金

1

基于生成对抗网络的释义文本生成研究

批准号:61806075
批准年份:2018
负责人:孔蕾蕾
学科分类:F0606
资助金额:26.00
项目类别:青年科学基金项目
2

生成对抗网络在图像文本跨模态检索中的研究

批准号:61862050
批准年份:2018
负责人:刘立波
学科分类:F0211
资助金额:40.00
项目类别:地区科学基金项目
3

基于知识引导与对抗学习的图像文本描述生成方法研究

批准号:61872366
批准年份:2018
负责人:刘静
学科分类:F0210
资助金额:65.00
项目类别:面上项目
4

面向任务生成对抗网络的极化SAR图像分类问题研究

批准号:61802190
批准年份:2018
负责人:刘芳
学科分类:F0210
资助金额:27.00
项目类别:青年科学基金项目