Question Generation is an important component in Question and Answer System,Intelligent Tutoring System, and Intelligent Dialog System. Recent years, little research have attempted to investigate Chinese factual question generation, but the system performance is poor. The main reason is that the question generation system is a pipe line process and errors occurring at any stage could impact on the system performance. Those errors include sentence parsing, coreference resolution and named entity recognition errors, and there are unavoidable. This project propose to use learning to rank approach to improve the system performance by filtering low quality questions. Besides, this project will investigate to use Chinese character similarity to generate multiple choice questions and use learning to rank approach to computer the similarity considering the factors of the word pronunciation, orthography and meaning. Lastly, we will build an online self-learning environment used to evaluate the system performance and provide an inside to the application of the question generation approach in the context of smart learning environment.
随着提问的重要性在智能辅导系统、自然语言问答系统、人机对话系统等应用领域中日益突出,让机器能够模拟人类的提问功能也显得越发迫切。近年来,国内少数学者对汉语事实类问题提问产生方法做了一些试探性研究,但是准确度不高。主要原因是,智能提问系统是一个管道模型,其中句法分析错误、指代消解以及实体错误识别将影响到系统的性能,并且这些错误都是很难避免的。本项目提出的排序学习模型将考虑这些错误因素,排除掉低质量的问题,从而提高系统的性能。此外,本项目研究基于汉字相似度产生多项选择题方法。该方法重点研究基于排序学习的汉字相似度计算模型,该模型可以更方便的融合字音、字形以及字义特征,找出相似度较高的干扰项汉字。最后建立一个面向教学的自主学习的智能化网络学习原型系统,以验证成果的正确性和可行性,为开发新型的智能学习环境奠定基础。
近年来,智能提问作为人机交互的前沿技术已成为智能辅导系统、自然语言问答系统、人机对话系统之关键,让机器能够准确理解含义,并以人类的方式进行问题的提出与解答,为用户提供更加真实的交互体验,成为该领域的主要发展方向。目前虽然国内少数学者对汉语的文本理解与问题生成也已做了一些试探性研究,但是准确度普遍不高。其原因为智能提问系统是一个管道模型,其中句法分析错误、指代消解以及实体错误识别将影响到系统的性能,并且这些错误都是很难避免的。因此,本项目首先从语言学角度制定问题产生规则,然后基于学习排序方法对事实性问题自动生成展开研究,从句子简化、问句生成和排序三个阶段以相关性、正确率和流程性、歧义性等指标作为问题排序标注的依据,从中提取高质量的问题。该方法相较于以往的方法,在事实性问题的生成上获得了20%以上的效果提升。此外,现有研究大多仅基于文字的字形相似度特征,并未考虑深层特征,导致其效果不佳。本项目在字形的基础上,提出多选题的自动生成方法,基于相似混合策略,以结合字音、语义特征汉字的相似度学习排序方法,提取干扰项,排除掉低质量的问题。通过实验比较了混合策略和另外三种常见的问题生成策略(拼写,语义和语音策略),结果显示混合策略在问题生成质量上显著优于其他三种策略,具备最好的应用效果。最后建立一个面向教学的自主学习的智能化网络学习原型系统,在一所小学开展了实证研究,以验证上述各项成果的正确性和可行性,不仅为开发新型的智能学习环境奠定了基础,同时也促进、推动了汉语自然语言处理技术在计算机科学、教育学和认知科学领域的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
基于强化学习的信息检索排序模型研究
基于多源特征学习的中文查询纠错方法研究
基于弱监督学习的中文古籍识别方法研究
统计学习中文问句分类方法研究