基于问题预测和文本生成的阅读理解关键技术研究

基本信息
批准号:61876009
项目类别:面上项目
资助金额:64.00
负责人:李素建
学科分类:
依托单位:北京大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:饶琪,马德红,施晨,王义中,杨安,谢年韬
关键词:
问题预测篇章分析问题回答文本生成阅读理解
结项摘要

Reading is an important way for mankind to acquire knowledge. Research on the essence of reading comprehension and related techniques is a fundamental and challenging work in the field of artificial intelligence. Combining with the theories of socio-psycholinguistics, this application formulates and simulates the interaction between readers and text, predicts questions based on context during the reading process, and explores to develop novel question answering techniques especially for question and answer generation. The whole research plan includes:(1) We will explore the essence of reading comprehension, and form a cycle process of reading comprehension which is composed of repeated problem prediction and question answering. By this way, we can overcome the defects of ignoring modeling reading thinking process in current research.(2) We will construct a novel reading comprehension corpus, which consists of question type labeling information. (3) We will propose a set of text analysis techniques for reading comprehension,and especially focus on researching discourse analysis. We will use discourse dependency theory to parse the logical relations between sentences and use centering theory to analyze the transition between topics. (4) We will design the text generation techniques to generate questions and answers for reading comprehension, integrating the technology and theory of information extraction, discourse parsing, and deep learning.

阅读是人类获取知识的重要途径,深入研究阅读理解技术、探索阅读理解的本质是人工智能中一项基础且有挑战性的工作。本申请结合社会心理语言学理论中阅读相关的理论,模拟和形式化读者和文本之间的交互关系,在阅读过程中根据已知内容进行问题预测,同时深入研究问题回答技术,特别是注重问题和答案的生成技术研究。研究内容主要包括:(1)探索阅读理解的本质,形成了一套问题预测、问题回答的循环阅读理解过程,以克服当前研究中忽略了建模阅读思维过程的缺陷;(2)构建一个模拟人类思维过程的阅读理解语料库,对阅读过程中的提问形式和内容进行标注,并对问题类型进行归纳和总结;(3)提出一套针对阅读理解的文本分析技术方案,特别是加强篇章分析研究,采用篇章依存理论分析语句之间的逻辑关系,利用语篇向心理论分析话题的转换;(4)设计面向阅读理解的文本生成方法,融合信息提取、篇章分析、深度学习的技术和理论进行问题和答案的生成研究。

项目摘要

本项目主要围绕基于问题预测和文本生成的阅读理解关键技术展开研究,四年来的主要研究内容归纳为如下四方面:1)探索阅读理解过程,形成了一套问题生成、问题回答的阅读理解过程;2)模拟人类思维,把离散推理、知识应用、时间线等因素融于阅读理解过程中,构建相应的语料库,并提出一系列的阅读理解方法和技术;3)探索提高阅读理解能力的文本分析技术,包括篇章分析研究、修辞识别、阅读分级等基础研究;4)设计面向阅读理解的文本生成方法,融合篇章分析、语义知识、深度学习的技术和理论进行问题和答案的生成。..课题基本按项目预定的计划进行,达到了项目预期的目标,并完成了项目预期的研究成果。基于以上研究内容,形成了理论结合实践、规范和资源共建、技术实用化的一整套比较系统的研究成果,具有良好的应用前景。.(1)理论成果:围绕问题生成、阅读理解、文本生成的相关研究成果整理论文22篇发表在国内外会议和期刊上,在国际高水平会议或期刊如ACL, EMNLP, COLING上共发表论文14篇。.(2)规范和资源建设:构建了结合时间信息和推理的阅读理解数据集,包含了11.7万个问题;还构建了一个修辞语料库,其中包括12种修辞手段、 9010个修辞单位。.(3)系统实践:对自动阅读理解、问题生成、文本生成等方面的学术成果包括资源和代码进行了开源,并和百度公司合作进行研究自动阅读理解和文本生成技术,相关技术已在公司内部进行了产品化。.(4)学术交流和服务:与香港理工大学、北京语言大学、东北师范大学、南京师范大学、浪潮公司、百度公司、华为公司等进行学术交流、资源转让与技术合作等;项目负责人还承担了大量自然语言处理国内外重要会议的学术服务,如程序委员会主席、研讨会主席、领域主席等。.(5) 人才培养:指导了2名博士生、5名硕士生、11名本科生顺利毕业。所指导的1名研究生获得CCL会议的最佳论文奖。多名本科生获得北京大学信息学院优秀本科毕业论文。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

李素建的其他基金

批准号:61273278
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:60875042
批准年份:2008
资助金额:28.00
项目类别:面上项目
批准号:90920011
批准年份:2009
资助金额:50.00
项目类别:重大研究计划
批准号:61572049
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:60603093
批准年份:2006
资助金额:24.00
项目类别:青年科学基金项目

相似国自然基金

1

基于事件的图文数据阅读理解关键技术研究

批准号:61806117
批准年份:2018
负责人:王元龙
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
2

基于证据链的可推理机器阅读理解关键技术研究

批准号:61906217
批准年份:2019
负责人:余建兴
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目
3

面向复杂问题的汉语阅读理解研究

批准号:61673248
批准年份:2016
负责人:谭红叶
学科分类:F03
资助金额:61.00
项目类别:面上项目
4

阅读理解与认知资源优化

批准号:39870278
批准年份:1998
负责人:崔耀
学科分类:C0907
资助金额:11.00
项目类别:面上项目