基于深度学习的抄袭检测研究

基本信息

批准号：61772177

项目类别：面上项目

资助金额：63.00

负责人：齐浩亮

学科分类：

依托单位：黑龙江工程学院

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：孔蕾蕾,韩中元,刘柏森,黄成哲,韩咏,孙栩,李军,安波,李艳波

关键词：

语义匹配深度学习生成对抗网络抄袭检测序列标注

结项摘要

This proposal focuses on the research on plagiarism detection based on the theory of deep learning. A Variational AutoEncoder(VAE)-Generative Adversarial Network (GAN) (VAE-GAN) for plagiarized sentence autogeneration is put forward for the lack of plagiarism detection corpus. VAE-GAN maps the discrete text into continuous space through VAE. It paves a new way of using GAN for natural language processing for its sentence autogeneration ability. A Multi-granularity Tenser Neural Network (MgTNN) is proposed for text semantic similarity matching. MgTNN learns multigranula language representation using convolution neural network and models the interaction features at each level of granularity based on tensors. A Partial Semantic Matching Convolution Neural Network (PSM-CNN) is presented for plagiarism source retrieval. PSM-CNN resolves the partial matching problems of source retrieval through the consecutive convolution and pooling and provides a new solution for information retrieval with the same or similar characteristic. A Bidirectional Recurrent Neural Network-2D CRF (Bi-RNN-2D-CRF) model for text alignment is investigated by integrating the traditional method into the deep learning. Taking advantage of traditional methods of text alignment and deep learning models of semantics matching, the proposed Bi-RNN-2D-CRF provides an example of combining traditional methods and deep learning methods.

本课题开展基于深度学习的抄袭检测研究。针对抄袭语料匮乏问题，提出了基于生成对抗网络的抄袭句自动生成模型。该模型利用变分自编码将离散的文本映射到连续的空间，扫除了生成对抗网络在自然语言处理领域应用的主要障碍，为句子的自动生成提供了新的方法。对于释义抄袭识别问题，针对自然语言（句子）多粒度特性，利用卷积神经网络建模语言的多粒度表示，并使用张量神经网络建模相同粒度下句子间的交互关系，形成基于多粒度张量神经网络的文本语义相似度的新建模方法。针对源检索局部匹配敏感特性，以连续卷积、连续池化为手段，提出了局部语义匹配卷积神经网络，解决了源检索的建模问题，并为具有相同性质的信息检索提供解决思路。分析抄袭检测文本对齐本质，探索了传统方法和深度学习融合的建模方法，融合了深度学习语义相似度计算优势和2D CRF擅长多对多对齐的优势，为此类问题的解决提供了范例。

项目摘要

本以大幅提高抄袭检测系统性能为目标，探索面向自然语言处理的深度学习的基本理论、基本方法和关键技术。围绕总体目标，在抄袭句自动生成方面，提出了（1）基于生成对抗网络的抄袭语料构建方法；在多粒度的深度文本释义匹配方面，提出了（2）基于注意力机制的句法语义交互释义判别模型，和（3）基于自注意力机制的多粒度交互释义判别模型；在基于局部语义匹配的抄袭源检索方面，提出了（4）基于连续卷积的局部语义匹配模型；在结合深度学习和传统方法的文本对齐方面，提出了（5）结合深度特征和传统特征的释义抄袭文本对齐方法。课题为面向自然语言处理的生成对抗网络、文本语义相似度计算、抄袭检测源检索和信息检索、深度学习与传统机器学习方法相结合等关键科学问题提供新的解决思路和方案，其研究成果将促进深度学习的发展，为抄袭检测系统的构建提供基础理论和技术支撑。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

DOI：10.1360/SSM-2020-0035

发表时间：2020

齐浩亮的其他基金

批准号：60873105

批准年份：2008

资助金额：34.00

项目类别：面上项目

批准号：61370170

批准年份：2013

资助金额：73.00

项目类别：面上项目

相似国自然基金

基于深度信息和深度学习的车载视觉行人检测方法研究

批准号：61403004

批准年份：2014

负责人：张师林

学科分类：F0302

资助金额：24.00

项目类别：青年科学基金项目

基于深度学习的软件漏洞智能检测机制研究

批准号：61802106

批准年份：2018

负责人：李珍

学科分类：F0205

资助金额：24.00

项目类别：青年科学基金项目

基于深度学习的宽带MIMO AMP迭代检测译码

批准号：61801523

批准年份：2018

负责人：杨杨

学科分类：F0105

资助金额：20.00

项目类别：青年科学基金项目

基于深度特征学习的翻拍图像检测技术研究

批准号：61901349

批准年份：2019

负责人：朱楠

学科分类：F0116

资助金额：20.00

项目类别：青年科学基金项目

基于深度学习的抄袭检测研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

二维FM系统的同时故障检测与控制

水中溴代消毒副产物的生成综述

现代优化理论与应用

齐浩亮的其他基金

基于双语文档反馈的跨语言信息检索研究

面向短文本数据流的信息检索与信息过滤协同学习研究

相似国自然基金