Automated essay scoring (AES) utilizes pre-defined features to measure the writing quality of essays. However, due to the limits of the existing natural language processing techniques, current AES systems are only capable of making use of shallow text features such as the essay length and the number of grammar errors. As a consequence, current AES systems are not able to represent the exact semantic content of essays, resulting in limited robustness and effectiveness. To this end, we have investigated the relationship between various pre-defined features and the writing quality. Based on our prior studies, this project aims to develop a novel AES algorithm based on deep neural networks (DNN) by mining deep semantic features which can effectively reflect essay writing quality. The evaluation of the essay rating model trained by the new algorithm is planned to be done by cross-validation on the ASAP and HSK public datasets, which are in English and Chinese, respectively. Our proposed approach is expected to show significantly improved effectiveness in terms of human-machine agreement and robustness in the experiments.
在自动作文评分系统中, 对能够衡量作文水平与质量的特征的提取是保证评分准确性的关键技术手段。当前的自动作文评分算法普遍采用文章长度、语法错误等浅层特征,然而受限于目前自然语言处理技术水平,这些特征仅能在词法句法层面有效反应作文写作质量,而对于语义内容层面则仅能定制出较为浅层的特征,无法正确表示作文的上下文语义内容。申请人在前期工作探索了多种自动作文评分方法和评分模型常用特征与写作质量的相关性和泛化能力,归纳出当前自动作文评分技术因受限于所用特征的浅层性问题,导致该技术的鲁棒性和有效性受到严重制约。在此基础上,本研究拟基于深度学习技术构建新的自动作文评分算法,通过挖掘深层次的、能够有效反应文章写作质量的语义特征, 进而训练基于深度神经网络的自动作文评分模型,并在ASAP与HSK等公开中英文作文数据集上通过多重交叉检验进行性能验证评价,以期能显著提升现有评分系统的人机一致率和鲁棒性。
在自动作文评分系统中, 对能够衡量作文水平与质量的特征的提取是保证评分准确性的关键技术手段。当前的自动作文评分算法普遍采用文章长度、语法错误等浅层特征,然而受限于目前自然语言处理技术水平,这些特征仅能在词法句法层面有效反应作文写作质量,而对于语义内容层面则仅能定制出较为浅层的特征,无法正确表示作文的上下文语义内容。申请人在前期工作探索了多种自动作文评分方法和评分模型常用特征与写作质量的相关性和泛化能力,归纳出当前自动作文评分技术因受限于所用特征的浅层性问题,导致该技术的鲁棒性和有效性受到严重制约。在此基础上,本研究基于深度学习技术构建新的自动作文评分算法,通过挖掘深层次的、能够有效反应文章写作质量的语义特征, 进而训练基于深度神经网络的自动作文评分模型。具体研究内容:(1) 基于深度学习技术提取作文特征:研究了长文本语言模型以及基于分布式语义表示的作文特征提取方法;(2) 特征分析:通过在ASAP公开数据集上的实验,检验了多种分布式语义表示特征的效果,结果表明基于GloVE词嵌入与基于Google NGram语料语料训练得到的词嵌入相结合,可以得到最优作文评分预测结果;(3) 构建主题相关评分模型,通过在ASAP公开数据集上的实验检验了两种新提出的主题相关评分模型的效果,得到Kappa一致性为0.7500;(4)构建主题无关评分模型,提出了一种两阶段的作文评分算法,在ASAP数据集上得到的主题无关Kappa一致性为0.6682,显著优于已有主题无关评分算法。综上所述,本课题系统性的研究了深度学习技术在自动作文评分领域的应用方法,从特征和算法两方面展开了深入研究,在验证了基于深度学习技术构建主题相关作文评分算法的有效性的同时,显著提升了主题无关作文评分应用的基准,相关成果以长文形式发表在ACL、EMNLP等自然语言处理领域的重要会议。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
汉语考试中海量作文多层面全自动评分技术
基于多任务学习的自动修辞分析与作文评分关键技术研究
面向中国英语学习者的英文作文全自动评分及诊断反馈技术研究
基于FPGA的深度学习算法自动优化与编译