基于N-gram的多语言共存文本复制取证研究

基本信息
批准号:61173142
项目类别:面上项目
资助金额:60.00
负责人:杨林聪
学科分类:
依托单位:南京信息工程大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:陈志杰,孙德才,付章杰,张伟,向凌云,杨滨,许仁昌,周丹,张茜
关键词:
数字取证指纹自然语言处理文本Ngram
结项摘要

文本复制取证是为判断一个文本的内容是否抄袭、剽窃或复制于另外一个或多个文本提供证据,是打击抄袭、剽窃、盗版等侵权行为的有效手段,是数字取证的一个重要分支,是近年才发展起来的一个新兴的重要研究领域。基于内容的文本复制取证是文本复制取证的发展方向。本课题拟对多语言共存文本的复制取证中涉及到的文本指纹提取、文本指纹索引与压缩、复制取证策略等关键内容进行深入研究,力图减少多语言共存文本复制取证的存储开销、加快取证的速度、提高取证的精度。课题的主要研究内容包括:基于N-gram的文本指纹提取方法、N-gram项的指纹权重计算方法、基于N-gram的指纹索引与压缩方法、文本复制取证优化策略和文本复制取证原型系统的建立等。通过课题的研究,将在基于N-gram的文本指纹提取、适用于多语言共存文本的文本复制取证等方面完善自然语言文本复制取证的基本理论和方法,为推动自然语言文本取证的发展提供技术支撑。

项目摘要

文本复制取证是为判断一个文本的内容是否抄袭、剽窃或复制于另外一个或多个文本提供证据,是打击抄袭、剽窃、盗版等侵权行为的有效手段,是数字取证的一个重要分支,是近年才发展起来的一个新兴的重要研究领域。基于内容的文本复制取证是文本复制取证的发展方向。本课题对多语言共存文本的复制取证中涉及到的文本指纹提取、文本指纹索引与压缩、复制取证策略等关键内容进行了深入的研究。通过课题的研究,课题组成员提出了多种文本复制取证的方法与关键技术,发表了学术论文17篇,其中被SCI收录7篇、EI收录15篇,培养博士生5名,硕士生3名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

Identification of the starting reaction position in the hydrogenation of (N-ethyl)carbazole over Raney-Ni

Identification of the starting reaction position in the hydrogenation of (N-ethyl)carbazole over Raney-Ni

DOI:
发表时间:2015
3

One-step prepared prussian blue/porous carbon composite derives highly efficient Fe-N-C catalyst for oxygen reduction

One-step prepared prussian blue/porous carbon composite derives highly efficient Fe-N-C catalyst for oxygen reduction

DOI:10.1016/j.ijhydene.2020.03.250
发表时间:2020
4

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

DOI:10.11868/j.issn.1001-4381.2018.001042
发表时间:2019
5

Ultrafine Fe/Fe_3C decorated on Fe-N_x-C as bifunctional oxygen electrocatalysts for efficient Zn-air batteries

Ultrafine Fe/Fe_3C decorated on Fe-N_x-C as bifunctional oxygen electrocatalysts for efficient Zn-air batteries

DOI:10.1016/j.jechem.2020.07.048
发表时间:2021

杨林聪的其他基金

相似国自然基金

1

基于可比语料的多语言文本聚类研究

批准号:70903032
批准年份:2009
负责人:章成志
学科分类:G0414
资助金额:19.00
项目类别:青年科学基金项目
2

多语言智能文本处理中基于主题语义空间的文本表示研究

批准号:60372016
批准年份:2003
负责人:赵军
学科分类:F0113
资助金额:22.00
项目类别:面上项目
3

基于云计算的文本复制检测研究

批准号:61073069
批准年份:2010
负责人:黄萱菁
学科分类:F0211
资助金额:30.00
项目类别:面上项目
4

基于多语言微博文本的新疆热点事件检测关键技术研究

批准号:61561047
批准年份:2015
负责人:赵晖
学科分类:F0113
资助金额:34.00
项目类别:地区科学基金项目