基于云计算的文本复制检测研究

基本信息

批准号：61073069

项目类别：面上项目

资助金额：30.00

负责人：黄萱菁

学科分类：

依托单位：复旦大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：郭晓云,丁卓冶,王秉卿,白红丽,项逸群,周金龙,邬桐

关键词：

文本重用云计算拷贝检测MapReduce复制检测

结项摘要

随着互联网的发展，网页的数量呈现爆炸式的增长。在如此规模的海量数据中，存在大量内容重复、接近重复或者非常相似的网页。重复文本的自动检测，不仅可以提高搜索引擎、观点挖掘等Web应用的准确率和效率，改进用户体验，还可应用于知识产权保护、抄袭行为检测等任务，具有广泛的应用前景。. 本项课题针对海量文本数据，在云计算环境下，研究精度高、速度快、鲁棒性强且具有可扩展性的文本复制检测和区域定位算法，并在此基础上研究信息流的传播模式。具体内容包括：文本表示和特征提取方式；基于云计算框架的相似度计算、检测和定位算法；构建多种颗粒度的中英文文本复制检测标准评测库；结合文本复制检测和定位结果，研究信息流的表示模型和传播趋势。预期研究成果是在国内外权威期刊或主流学术会议发表论文8~12篇，专利申请1-2项。

项目摘要

如申请书所述，在本项课题中我们针对海量文本数据的重复检测问题开展研究，目标是在云计算环境下，构造精度高、速度快、鲁棒性强且具有可扩展性的文本复制检测和区域定位算法，并在此基础上研究信息流的传播模式。我们在云计算环境下结合GPU高并行性，针对该问题在多个领域进行了研究和验证。在本项目中我们开展的具体研究工作包括：.　　1) 短文本表示方法：由于传统的面向长文本的表示方法应用于短文本会造成大量的零向量和虚警，因此在本课题中，我们提出了多种针对短文本的特点，可以有效降低零向量和虚警率的短文本表示方式。实验表明，在6个不同领域的实验语料测试环境下都较现有方法有明显提高，在部分召回率相同的情况下，精度有2-3倍以上的提高；.　　2) 快速拷贝检测算法：在短文本表示的基础上，为了能够适用于海量文本数据的检测，我们根据云计算框架和GPU高并行性的特点，研究了适用于相似度计算、检测和定位算法，以及相应的索引方法，并构建了海量文本复制检测系统平台。计算效率和精度都较目前流行的方法有大幅度提高，采用GPU加速平台计算效率较单核CPU有1000倍以上提高；.　　3) 标准语料库构建：为了方便不同算法之间的横向对比，我们构建了包含1.4TB语料的，多种颗粒度，多语言文本复制检测标准评测库，为目前复制评测中语料库和评价标准不统一等问题提供一个对比语料库；.　　4) 信息流表示和传播趋势分析：针对社会网络特点和舆情分析等实际应用需求，我们结合网络爬虫、拷贝检测算法、舆情分析等相关研究，开展了信息流表示和传播趋势分析研究工作，并且将拷贝检测算法、舆情分析、趋势分析等作为重要组成部分应用于互联网高速管控系统中。.　　经过三年的研究，我们在 ACL, SIGIR, IJCAI, EMNLP, CIKM, COLING, IJCNLP等国际权威会议和期刊上发表了30篇学术论文，其中2010年和2012年发表于信息检索领域顶级会议的SIGIR的关于部分文本拷贝检测的文章，首次提出了该问题，并分别利用云计算框架和GPU众核计算进行解决，3年来引用次数已超过30次，是近年来在顶级会议上发表的为数不多的关于拷贝检测的论文。申请专利2 项（其中1项已经获批），相关成果作为互联网高速管控系统的重要组成部分，获得了2012年上海市科技进步二等奖和2012年教育部科技进步二等奖，从而圆满地完成了任务书所规定的任务。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.3969/j.issn.1000-4440.2021.03.031

发表时间：2021

DOI：10.14006/j.jzjgxb.2018.0676

发表时间：2021

DOI：CNKI:SUN:YGXB.0.2018-01-012

发表时间：2018

黄萱菁的其他基金

批准号：60103014

批准年份：2001

资助金额：28.00

项目类别：联合基金项目

批准号：60673038

批准年份：2006

资助金额：26.00

项目类别：面上项目

批准号：61472088

批准年份：2014

资助金额：83.00

项目类别：面上项目

相似国自然基金

跨语言文本复制检测研究

批准号：60903123

批准年份：2009

负责人：鲍军鹏

学科分类：F0211

资助金额：19.00

项目类别：青年科学基金项目

移动云计算模式下的场景文本感知方法研究

批准号：61203259

批准年份：2012

负责人：朱远平

学科分类：F0605

资助金额：24.00

项目类别：青年科学基金项目

基于中文文本的计算机中介通信中欺骗检测研究

批准号：60775041

批准年份：2007

负责人：郑家恒

学科分类：F03

资助金额：28.00

项目类别：面上项目

基于统计学习的云计算系统故障检测与诊断方法研究

批准号：61402450

批准年份：2014

负责人：王焘

学科分类：F0203

资助金额：24.00

项目类别：青年科学基金项目

基于云计算的文本复制检测研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

黄曲霉毒素B1检测与脱毒方法最新研究进展

带球冠形脱空缺陷的钢管混凝土构件拉弯试验和承载力计算方法研究

GF-4序列图像的云自动检测

黄萱菁的其他基金

基于内容的文本过滤技术研究

中文文本情感倾向挖掘技术研究

融合文本内容与结构信息的话题分析方法研究

相似国自然基金