基于深度学习的抄袭检测研究

基本信息
批准号:61772177
项目类别:面上项目
资助金额:63.00
负责人:齐浩亮
学科分类:
依托单位:黑龙江工程学院
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:孔蕾蕾,韩中元,刘柏森,黄成哲,韩咏,孙栩,李军,安波,李艳波
关键词:
语义匹配深度学习生成对抗网络抄袭检测序列标注
结项摘要

This proposal focuses on the research on plagiarism detection based on the theory of deep learning. A Variational AutoEncoder(VAE)-Generative Adversarial Network (GAN) (VAE-GAN) for plagiarized sentence autogeneration is put forward for the lack of plagiarism detection corpus. VAE-GAN maps the discrete text into continuous space through VAE. It paves a new way of using GAN for natural language processing for its sentence autogeneration ability. A Multi-granularity Tenser Neural Network (MgTNN) is proposed for text semantic similarity matching. MgTNN learns multigranula language representation using convolution neural network and models the interaction features at each level of granularity based on tensors. A Partial Semantic Matching Convolution Neural Network (PSM-CNN) is presented for plagiarism source retrieval. PSM-CNN resolves the partial matching problems of source retrieval through the consecutive convolution and pooling and provides a new solution for information retrieval with the same or similar characteristic. A Bidirectional Recurrent Neural Network-2D CRF (Bi-RNN-2D-CRF) model for text alignment is investigated by integrating the traditional method into the deep learning. Taking advantage of traditional methods of text alignment and deep learning models of semantics matching, the proposed Bi-RNN-2D-CRF provides an example of combining traditional methods and deep learning methods.

本课题开展基于深度学习的抄袭检测研究。针对抄袭语料匮乏问题,提出了基于生成对抗网络的抄袭句自动生成模型。该模型利用变分自编码将离散的文本映射到连续的空间,扫除了生成对抗网络在自然语言处理领域应用的主要障碍,为句子的自动生成提供了新的方法。对于释义抄袭识别问题,针对自然语言(句子)多粒度特性,利用卷积神经网络建模语言的多粒度表示,并使用张量神经网络建模相同粒度下句子间的交互关系,形成基于多粒度张量神经网络的文本语义相似度的新建模方法。针对源检索局部匹配敏感特性,以连续卷积、连续池化为手段,提出了局部语义匹配卷积神经网络,解决了源检索的建模问题,并为具有相同性质的信息检索提供解决思路。分析抄袭检测文本对齐本质,探索了传统方法和深度学习融合的建模方法,融合了深度学习语义相似度计算优势和2D CRF擅长多对多对齐的优势,为此类问题的解决提供了范例。

项目摘要

本以大幅提高抄袭检测系统性能为目标,探索面向自然语言处理的深度学习的基本理论、基本方法和关键技术。围绕总体目标,在抄袭句自动生成方面,提出了(1)基于生成对抗网络的抄袭语料构建方法;在多粒度的深度文本释义匹配方面,提出了(2)基于注意力机制的句法语义交互释义判别模型,和(3)基于自注意力机制的多粒度交互释义判别模型;在基于局部语义匹配的抄袭源检索方面,提出了(4)基于连续卷积的局部语义匹配模型;在结合深度学习和传统方法的文本对齐方面,提出了(5)结合深度特征和传统特征的释义抄袭文本对齐方法。课题为面向自然语言处理的生成对抗网络、文本语义相似度计算、抄袭检测源检索和信息检索、深度学习与传统机器学习方法相结合等关键科学问题提供新的解决思路和方案,其研究成果将促进深度学习的发展,为抄袭检测系统的构建提供基础理论和技术支撑。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
4

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

齐浩亮的其他基金

批准号:60873105
批准年份:2008
资助金额:34.00
项目类别:面上项目
批准号:61370170
批准年份:2013
资助金额:73.00
项目类别:面上项目

相似国自然基金

1

基于深度信息和深度学习的车载视觉行人检测方法研究

批准号:61403004
批准年份:2014
负责人:张师林
学科分类:F0302
资助金额:24.00
项目类别:青年科学基金项目
2

基于深度学习的软件漏洞智能检测机制研究

批准号:61802106
批准年份:2018
负责人:李珍
学科分类:F0205
资助金额:24.00
项目类别:青年科学基金项目
3

基于深度学习的宽带MIMO AMP迭代检测译码

批准号:61801523
批准年份:2018
负责人:杨杨
学科分类:F0105
资助金额:20.00
项目类别:青年科学基金项目
4

基于深度特征学习的翻拍图像检测技术研究

批准号:61901349
批准年份:2019
负责人:朱楠
学科分类:F0116
资助金额:20.00
项目类别:青年科学基金项目