基于问题预测和文本生成的阅读理解关键技术研究

基本信息

批准号：61876009

项目类别：面上项目

资助金额：64.00

负责人：李素建

学科分类：

依托单位：北京大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：饶琪,马德红,施晨,王义中,杨安,谢年韬

关键词：

问题预测篇章分析问题回答文本生成阅读理解

结项摘要

Reading is an important way for mankind to acquire knowledge. Research on the essence of reading comprehension and related techniques is a fundamental and challenging work in the field of artificial intelligence. Combining with the theories of socio-psycholinguistics, this application formulates and simulates the interaction between readers and text, predicts questions based on context during the reading process, and explores to develop novel question answering techniques especially for question and answer generation. The whole research plan includes:(1) We will explore the essence of reading comprehension, and form a cycle process of reading comprehension which is composed of repeated problem prediction and question answering. By this way, we can overcome the defects of ignoring modeling reading thinking process in current research.(2) We will construct a novel reading comprehension corpus, which consists of question type labeling information. (3) We will propose a set of text analysis techniques for reading comprehension,and especially focus on researching discourse analysis. We will use discourse dependency theory to parse the logical relations between sentences and use centering theory to analyze the transition between topics. (4) We will design the text generation techniques to generate questions and answers for reading comprehension, integrating the technology and theory of information extraction, discourse parsing, and deep learning.

阅读是人类获取知识的重要途径，深入研究阅读理解技术、探索阅读理解的本质是人工智能中一项基础且有挑战性的工作。本申请结合社会心理语言学理论中阅读相关的理论，模拟和形式化读者和文本之间的交互关系，在阅读过程中根据已知内容进行问题预测，同时深入研究问题回答技术，特别是注重问题和答案的生成技术研究。研究内容主要包括：(1)探索阅读理解的本质，形成了一套问题预测、问题回答的循环阅读理解过程，以克服当前研究中忽略了建模阅读思维过程的缺陷；(2)构建一个模拟人类思维过程的阅读理解语料库，对阅读过程中的提问形式和内容进行标注，并对问题类型进行归纳和总结；(3)提出一套针对阅读理解的文本分析技术方案，特别是加强篇章分析研究，采用篇章依存理论分析语句之间的逻辑关系，利用语篇向心理论分析话题的转换；(4)设计面向阅读理解的文本生成方法，融合信息提取、篇章分析、深度学习的技术和理论进行问题和答案的生成研究。

项目摘要

本项目主要围绕基于问题预测和文本生成的阅读理解关键技术展开研究，四年来的主要研究内容归纳为如下四方面：1）探索阅读理解过程，形成了一套问题生成、问题回答的阅读理解过程；2）模拟人类思维，把离散推理、知识应用、时间线等因素融于阅读理解过程中，构建相应的语料库，并提出一系列的阅读理解方法和技术；3）探索提高阅读理解能力的文本分析技术，包括篇章分析研究、修辞识别、阅读分级等基础研究；4）设计面向阅读理解的文本生成方法，融合篇章分析、语义知识、深度学习的技术和理论进行问题和答案的生成。..课题基本按项目预定的计划进行，达到了项目预期的目标，并完成了项目预期的研究成果。基于以上研究内容，形成了理论结合实践、规范和资源共建、技术实用化的一整套比较系统的研究成果，具有良好的应用前景。.(1)理论成果：围绕问题生成、阅读理解、文本生成的相关研究成果整理论文22篇发表在国内外会议和期刊上，在国际高水平会议或期刊如ACL， EMNLP, COLING上共发表论文14篇。.(2)规范和资源建设：构建了结合时间信息和推理的阅读理解数据集，包含了11.7万个问题；还构建了一个修辞语料库，其中包括12种修辞手段、 9010个修辞单位。.(3）系统实践：对自动阅读理解、问题生成、文本生成等方面的学术成果包括资源和代码进行了开源，并和百度公司合作进行研究自动阅读理解和文本生成技术，相关技术已在公司内部进行了产品化。.(4）学术交流和服务：与香港理工大学、北京语言大学、东北师范大学、南京师范大学、浪潮公司、百度公司、华为公司等进行学术交流、资源转让与技术合作等；项目负责人还承担了大量自然语言处理国内外重要会议的学术服务，如程序委员会主席、研讨会主席、领域主席等。.(5) 人才培养：指导了2名博士生、5名硕士生、11名本科生顺利毕业。所指导的1名研究生获得CCL会议的最佳论文奖。多名本科生获得北京大学信息学院优秀本科毕业论文。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

DOI：10.7498/aps.68.20181682

发表时间：2019

李素建的其他基金

批准号：61273278

批准年份：2012

资助金额：80.00

项目类别：面上项目

批准号：60875042

批准年份：2008

资助金额：28.00

项目类别：面上项目

批准号：90920011

批准年份：2009

资助金额：50.00

项目类别：重大研究计划

批准号：61572049

批准年份：2015

资助金额：63.00

项目类别：面上项目

批准号：60603093

批准年份：2006

资助金额：24.00

项目类别：青年科学基金项目

相似国自然基金

基于事件的图文数据阅读理解关键技术研究

批准号：61806117

批准年份：2018

负责人：王元龙

学科分类：F0606

资助金额：25.00

项目类别：青年科学基金项目

基于证据链的可推理机器阅读理解关键技术研究

批准号：61906217

批准年份：2019

负责人：余建兴

学科分类：F0606

资助金额：24.00

项目类别：青年科学基金项目

面向复杂问题的汉语阅读理解研究

批准号：61673248

批准年份：2016

负责人：谭红叶

学科分类：F03

资助金额：61.00

项目类别：面上项目

阅读理解与认知资源优化

批准号：39870278

批准年份：1998

负责人：崔耀

学科分类：C0907

资助金额：11.00

项目类别：面上项目

基于问题预测和文本生成的阅读理解关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

水中溴代消毒副产物的生成综述

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

李素建的其他基金

基于网络异构文本数据融合的热点话题发现及其内容摘要研究

应用于面向问题的自动文摘任务的篇章分析关键技术研究

面向文本推理的汉语语义计算模型研究

面向科技文献的引用摘要生成关键技术研究

基于短语信息和领域概念的主题标引关键技术研究

相似国自然基金