基于文档的智能问答的关键技术研究与资源建设

基本信息

批准号：61773026

项目类别：面上项目

资助金额：60.00

负责人：吴云芳

学科分类：

依托单位：北京大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：张晴,郑略省,刘天宇,王异秀,李炜,李伟康,张明华,李世妲

关键词：

资源建设句子语义表示深度学习语义距离计算智能问答

结项摘要

This project will study some key issues on document-based question answering, by employing deep learning technology with neural networks. 1) To automatically predict whether a given question can be returned a right answer in related documents, which has been neglected by researchers for a long time but is a critical problem in a real-world application. We will introduce distributed paragraph vector to represent a sentence by using bi-directional long short-term memory (LSTM) networks, and incorporate shallow features to represent a question. Then a three-order tensor is utilized to model the interaction between question and answer. 2) To automatically select a right answer for a given question. We propose "Local matching model with bi-directional attention". The word embeddings that incorporate dependency structure knowledge are used to predict the local matching degree between question and answer; the LSTM representations are used to compute the "vertical attention score" and "horizontal attention score" for a question word. Then the overall relevance value between question and answer is summarized by a weighted sum of the local matching score. 3) To apply generative adversarial nets (GAN) to improve the discriminator with better performance on answer selection. The question and answer will be encoded using sequential autoencoder. To overcome the gradient loss problem when GAN generates discrete elements, the distributed vector of a fake answer produced by the generator will be passed directly to the discriminator, and a pre-trained autoencorder is utilized to generate words from the distributed vector of a fake answer. Also, this project will build an open dataset for Chinese question answering and conduct an evaluation campaign, to encourage more researches on this challenging task.

本项目将围绕智能问答、面向基于文档的问答系统，基于深度学习的方法研究其中的关键技术问题。包括：1)自动判定一个问题是否有正确答案。这是一个被前人研究长期忽略、但在实际应用中非常重要的任务。将用LSTM网络融合段落信息来表示文档中的一个句子，加入语言特征来表征问题，用张量神经网络来建模问题和答案的匹配关系。2)自动选择正确答案。提出了“双向注意的局部匹配模型”：用融合了依存结构信息的词语向量来计算局部匹配度，用LSTM潜层表示来计算问题中每个词语相对于答案的垂直注意力分值和相对于问题整体义的水平注意力分值。3)将对抗生成网络GAN用于问答系统，利用对抗策略来提升判别模型答案选择的性能。将生成模型产生的伪造答案的潜层向量直接传递给判别模型，或者是借助自编码器从潜层向量生成词语，以解决GAN网络生成离散性符号时遭遇的难题。本项目还将构建一个高质量的汉语智能问答公开数据集并组织评测竞赛。

项目摘要

本项目围绕智能问答，基于深度学习方法研究了其中若干关键技术问题，取得了一些有价值的研究成果。. 提出了多种不同的新方法来提升问答系统的性能。1）基于人类阅读策略进行文档问答，尝试多种方法自动获得文档的主旨表达，将其与问题的表征融合得到新的句子表征，采用层级网络结构对文档的词、句子、篇章进行层级编码，进而结合问题表征去匹配答案。2）融入WordNet知识改进注意力机制来进行答案选择，基于WordNet计算问题和候选答案中每个词语的相似度，以及问题和候选答案中每个词语的上下位相关性，用相似度和相关值改进原始的注意力值。3）提出了问题检索的无监督模型，用注意力自编码器来生成问题的语义表示，利用词汇失配来捕捉两个问题之间的表层语义匹配，并嵌入搜索引擎的排序结果。. 提出了多种不同的新方法来自动生成文档问题来辅助智能问答。1）提出了问题类型驱动的问题生成方法，根据输入的答案句子来自动预测问题类型，而后将问题类型嵌入到序列到序列模型中，以指导问题生成。2）提出了基于复述知识的问题生成方法，通过高效的回译方式获取文本及问题句子的复述表达，在多任务学习框架下联合优化复述生成和问题生成模型，使得复述知识有机融入到问题生成的过程中，帮助模型生成更加多样性的问句。. 此外，项目还对句子表征学习、文档问答到文档摘要的模型迁移等进行了探索。. 项目发表了14篇高水平学术论文，其中CCFA类/B类论文9篇。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2020

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：

发表时间：2017

吴云芳的其他基金

批准号：60703063

批准年份：2007

资助金额：20.00

项目类别：青年科学基金项目

批准号：61371129

批准年份：2013

资助金额：80.00

项目类别：面上项目

相似国自然基金

文本情绪分类的资源建设及关键技术研究

批准号：61672366

批准年份：2016

负责人：李寿山

学科分类：F0211

资助金额：63.00

项目类别：面上项目

情感信息抽取的资源建设及关键技术研究

批准号：61375073

批准年份：2013

负责人：李寿山

学科分类：F03

资助金额：78.00

项目类别：面上项目

社区问答系统关键技术研究

批准号：61672081

批准年份：2016

负责人：李舟军

学科分类：F0211

资助金额：63.00

项目类别：面上项目

基于遥感影像的森林资源智能区划关键技术研究

批准号：31100412

批准年份：2011

负责人：莫登奎

学科分类：C1608

资助金额：23.00

项目类别：青年科学基金项目

基于文档的智能问答的关键技术研究与资源建设

{{i.achievement_title}}

暂无此项成果

其他相关文献

结直肠癌免疫治疗的多模态影像及分子影像评估

智能煤矿建设路线与工程实践

扶贫资源输入对贫困地区分配公平的影响

现代优化理论与应用

多元化企业IT协同的维度及测量

吴云芳的其他基金

基于词语独异性特征的大规模词义标注语料库自动构建研究

基于汉语话题的句际关系自动分析研究

相似国自然基金