跨语言文本复制检测研究

基本信息
批准号:60903123
项目类别:青年科学基金项目
资助金额:19.00
负责人:鲍军鹏
学科分类:
依托单位:西安交通大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:冯中慧,张霄军,何亮,吕园园,段争争,王田甲
关键词:
文本复制检测双语文本文本挖掘半结构化文本
结项摘要

在网络环境下保护电子文本知识产权,打击非法复制、剽窃论文等不端学术行为,是当前亟待解决的一个热点问题。现有文本复制检测方法不能有效检测从英文翻译到中文这种翻译型的文本剽窃。项目将要研究在网络条件下多语言文本混杂、无结构文本和半结构文本混杂的情况下,如何高效、快速检测各种类型雷同文本。包括:基于双语本体的翻译型无结构自然语言文本复制检测方法,基于小波变换提取结构特征的半结构文本复制检测,面向网络服务的主动式文本复制检测体系模型。研究方案的特色在于:(1)不需要对文本进行机器翻译,而是根据双语本体把中英文字词转变为概念,然后依据概念集序列检测文本复制。(2)提出比较全面、主动、快速的文本复制检测策略和体系模型。本项目的研究对于文本挖掘、文本相似性度量和自然语言处理具有很大理论意义,对于保护电子文本知识产权,打击论文造假,端正学术风气具有重要的应用价值和社会意义。

项目摘要

在网络环境下保护电子文本知识产权,打击非法复制、剽窃论文等不端学术行为,是当前亟待解决的一个热点问题。现有文本复制检测方法不能有效检测从英文翻译到中文这种翻译型的文本剽窃。项目研究了在网络条件下多语言文本混杂、无结构文本和半结构文本混杂的情况下,高效、快速检测各种类型雷同文本的方法和体系模型。包括在翻译型无结构自然语言文本复制检测方法、半结构文本复制检测方法、面向网络服务的文本复制检测体系模型以及相似性检测方法在其它序列数据上的应用等方面开展了研究,取得了成果。.项目提出了文本概念图模型用来解决中英文双语文本之间的语义相似性问题。该模型不需要对文本进行机器翻译,而是根据双语本体把中英文字词转变为概念,把文本词语内在语义联系反映到词语结点权值中,建立文本概念图模型检测文本复制,可以更好地反映文本语义信息。提出了基于小波变换的结构相似度模型可以较少的误差来快速度量半结构化文本结构相似性。该模型用一个短向量来存储半结构化文本的结构信息,并且算法时间复杂度小,能够快速有效地度量半结构化文本的结构相似性,为半结构化文本检索与查询系统带来很大的性能提升空间。提出了适应云计算环境体现软件即服务思想的新型软件服务体系,可以提供文本复制检测和XML文本相似度计算等多种公共服务,为将来把项目研究成果向社会进行大规模推广奠定了坚实基础。项目还将上述复制检测核心算法思想推广到时间序列、蛋白质序列、UML模型等多种序列数据上,体现出了项目研究成果的广阔应用前景。.项目组累计获得了2项国家发明专利授权,另外还有2项国家发明专利正在审批中;出版了1部专著;发表(含录用)了8篇学术论文,其中EI检索5篇,2篇论文被SCI源期刊录用(待发表)。项目组已经培养毕业了3名硕士研究生,还有3名硕士研究生将于2013年春季毕业,3名硕士研究生将于2014年春季毕业。.项目成果对于文本挖掘、文本相似性度量和自然语言处理具有很大理论意义,对于保护电子文本知识产权,打击论文造假,端正学术风气具有重要的应用价值和社会意义,对于序列数据知识挖掘应用具有巨大的潜在经济价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
2

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022
5

三级硅基填料的构筑及其对牙科复合树脂性能的影响

三级硅基填料的构筑及其对牙科复合树脂性能的影响

DOI:10.11951/j.issn.1005-0299.20200093
发表时间:2020

鲍军鹏的其他基金

相似国自然基金

1

跨语言文本自动分类关键技术研究

批准号:60803050
批准年份:2008
负责人:代六玲
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
2

基于云计算的文本复制检测研究

批准号:61073069
批准年份:2010
负责人:黄萱菁
学科分类:F0211
资助金额:30.00
项目类别:面上项目
3

基于N-gram的多语言共存文本复制取证研究

批准号:61173142
批准年份:2011
负责人:杨林聪
学科分类:F0206
资助金额:60.00
项目类别:面上项目
4

地表覆盖变化的Web文本语言层级模型与检测方法研究

批准号:41701443
批准年份:2017
负责人:侯东阳
学科分类:D0114
资助金额:24.00
项目类别:青年科学基金项目