Reading is an important way for mankind to acquire knowledge. Research on the essence of reading comprehension and related techniques is a fundamental and challenging work in the field of artificial intelligence. Combining with the theories of socio-psycholinguistics, this application formulates and simulates the interaction between readers and text, predicts questions based on context during the reading process, and explores to develop novel question answering techniques especially for question and answer generation. The whole research plan includes:(1) We will explore the essence of reading comprehension, and form a cycle process of reading comprehension which is composed of repeated problem prediction and question answering. By this way, we can overcome the defects of ignoring modeling reading thinking process in current research.(2) We will construct a novel reading comprehension corpus, which consists of question type labeling information. (3) We will propose a set of text analysis techniques for reading comprehension,and especially focus on researching discourse analysis. We will use discourse dependency theory to parse the logical relations between sentences and use centering theory to analyze the transition between topics. (4) We will design the text generation techniques to generate questions and answers for reading comprehension, integrating the technology and theory of information extraction, discourse parsing, and deep learning.
阅读是人类获取知识的重要途径,深入研究阅读理解技术、探索阅读理解的本质是人工智能中一项基础且有挑战性的工作。本申请结合社会心理语言学理论中阅读相关的理论,模拟和形式化读者和文本之间的交互关系,在阅读过程中根据已知内容进行问题预测,同时深入研究问题回答技术,特别是注重问题和答案的生成技术研究。研究内容主要包括:(1)探索阅读理解的本质,形成了一套问题预测、问题回答的循环阅读理解过程,以克服当前研究中忽略了建模阅读思维过程的缺陷;(2)构建一个模拟人类思维过程的阅读理解语料库,对阅读过程中的提问形式和内容进行标注,并对问题类型进行归纳和总结;(3)提出一套针对阅读理解的文本分析技术方案,特别是加强篇章分析研究,采用篇章依存理论分析语句之间的逻辑关系,利用语篇向心理论分析话题的转换;(4)设计面向阅读理解的文本生成方法,融合信息提取、篇章分析、深度学习的技术和理论进行问题和答案的生成研究。
本项目主要围绕基于问题预测和文本生成的阅读理解关键技术展开研究,四年来的主要研究内容归纳为如下四方面:1)探索阅读理解过程,形成了一套问题生成、问题回答的阅读理解过程;2)模拟人类思维,把离散推理、知识应用、时间线等因素融于阅读理解过程中,构建相应的语料库,并提出一系列的阅读理解方法和技术;3)探索提高阅读理解能力的文本分析技术,包括篇章分析研究、修辞识别、阅读分级等基础研究;4)设计面向阅读理解的文本生成方法,融合篇章分析、语义知识、深度学习的技术和理论进行问题和答案的生成。..课题基本按项目预定的计划进行,达到了项目预期的目标,并完成了项目预期的研究成果。基于以上研究内容,形成了理论结合实践、规范和资源共建、技术实用化的一整套比较系统的研究成果,具有良好的应用前景。.(1)理论成果:围绕问题生成、阅读理解、文本生成的相关研究成果整理论文22篇发表在国内外会议和期刊上,在国际高水平会议或期刊如ACL, EMNLP, COLING上共发表论文14篇。.(2)规范和资源建设:构建了结合时间信息和推理的阅读理解数据集,包含了11.7万个问题;还构建了一个修辞语料库,其中包括12种修辞手段、 9010个修辞单位。.(3)系统实践:对自动阅读理解、问题生成、文本生成等方面的学术成果包括资源和代码进行了开源,并和百度公司合作进行研究自动阅读理解和文本生成技术,相关技术已在公司内部进行了产品化。.(4)学术交流和服务:与香港理工大学、北京语言大学、东北师范大学、南京师范大学、浪潮公司、百度公司、华为公司等进行学术交流、资源转让与技术合作等;项目负责人还承担了大量自然语言处理国内外重要会议的学术服务,如程序委员会主席、研讨会主席、领域主席等。.(5) 人才培养:指导了2名博士生、5名硕士生、11名本科生顺利毕业。所指导的1名研究生获得CCL会议的最佳论文奖。多名本科生获得北京大学信息学院优秀本科毕业论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
基于事件的图文数据阅读理解关键技术研究
基于证据链的可推理机器阅读理解关键技术研究
面向复杂问题的汉语阅读理解研究
阅读理解与认知资源优化