This proposal focuses on the research on plagiarism detection based on the theory of deep learning. A Variational AutoEncoder(VAE)-Generative Adversarial Network (GAN) (VAE-GAN) for plagiarized sentence autogeneration is put forward for the lack of plagiarism detection corpus. VAE-GAN maps the discrete text into continuous space through VAE. It paves a new way of using GAN for natural language processing for its sentence autogeneration ability. A Multi-granularity Tenser Neural Network (MgTNN) is proposed for text semantic similarity matching. MgTNN learns multigranula language representation using convolution neural network and models the interaction features at each level of granularity based on tensors. A Partial Semantic Matching Convolution Neural Network (PSM-CNN) is presented for plagiarism source retrieval. PSM-CNN resolves the partial matching problems of source retrieval through the consecutive convolution and pooling and provides a new solution for information retrieval with the same or similar characteristic. A Bidirectional Recurrent Neural Network-2D CRF (Bi-RNN-2D-CRF) model for text alignment is investigated by integrating the traditional method into the deep learning. Taking advantage of traditional methods of text alignment and deep learning models of semantics matching, the proposed Bi-RNN-2D-CRF provides an example of combining traditional methods and deep learning methods.
本课题开展基于深度学习的抄袭检测研究。针对抄袭语料匮乏问题,提出了基于生成对抗网络的抄袭句自动生成模型。该模型利用变分自编码将离散的文本映射到连续的空间,扫除了生成对抗网络在自然语言处理领域应用的主要障碍,为句子的自动生成提供了新的方法。对于释义抄袭识别问题,针对自然语言(句子)多粒度特性,利用卷积神经网络建模语言的多粒度表示,并使用张量神经网络建模相同粒度下句子间的交互关系,形成基于多粒度张量神经网络的文本语义相似度的新建模方法。针对源检索局部匹配敏感特性,以连续卷积、连续池化为手段,提出了局部语义匹配卷积神经网络,解决了源检索的建模问题,并为具有相同性质的信息检索提供解决思路。分析抄袭检测文本对齐本质,探索了传统方法和深度学习融合的建模方法,融合了深度学习语义相似度计算优势和2D CRF擅长多对多对齐的优势,为此类问题的解决提供了范例。
本以大幅提高抄袭检测系统性能为目标,探索面向自然语言处理的深度学习的基本理论、基本方法和关键技术。围绕总体目标,在抄袭句自动生成方面,提出了(1)基于生成对抗网络的抄袭语料构建方法;在多粒度的深度文本释义匹配方面,提出了(2)基于注意力机制的句法语义交互释义判别模型,和(3)基于自注意力机制的多粒度交互释义判别模型;在基于局部语义匹配的抄袭源检索方面,提出了(4)基于连续卷积的局部语义匹配模型;在结合深度学习和传统方法的文本对齐方面,提出了(5)结合深度特征和传统特征的释义抄袭文本对齐方法。课题为面向自然语言处理的生成对抗网络、文本语义相似度计算、抄袭检测源检索和信息检索、深度学习与传统机器学习方法相结合等关键科学问题提供新的解决思路和方案,其研究成果将促进深度学习的发展,为抄袭检测系统的构建提供基础理论和技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
基于FTA-BN模型的页岩气井口装置失效概率分析
基于深度信息和深度学习的车载视觉行人检测方法研究
基于深度学习的软件漏洞智能检测机制研究
基于深度学习的宽带MIMO AMP迭代检测译码
基于深度特征学习的翻拍图像检测技术研究