随着互联网的发展,网页的数量呈现爆炸式的增长。在如此规模的海量数据中,存在大量内容重复、接近重复或者非常相似的网页。重复文本的自动检测,不仅可以提高搜索引擎、观点挖掘等Web应用的准确率和效率,改进用户体验,还可应用于知识产权保护、抄袭行为检测等任务,具有广泛的应用前景。. 本项课题针对海量文本数据,在云计算环境下,研究精度高、速度快、鲁棒性强且具有可扩展性的文本复制检测和区域定位算法,并在此基础上研究信息流的传播模式。具体内容包括:文本表示和特征提取方式;基于云计算框架的相似度计算、检测和定位算法;构建多种颗粒度的中英文文本复制检测标准评测库;结合文本复制检测和定位结果,研究信息流的表示模型和传播趋势。预期研究成果是在国内外权威期刊或主流学术会议发表论文8~12篇,专利申请1-2项。
如申请书所述,在本项课题中我们针对海量文本数据的重复检测问题开展研究,目标是在云计算环境下,构造精度高、速度快、鲁棒性强且具有可扩展性的文本复制检测和区域定位算法,并在此基础上研究信息流的传播模式。我们在云计算环境下结合GPU高并行性,针对该问题在多个领域进行了研究和验证。在本项目中我们开展的具体研究工作包括:. 1) 短文本表示方法:由于传统的面向长文本的表示方法应用于短文本会造成大量的零向量和虚警,因此在本课题中,我们提出了多种针对短文本的特点,可以有效降低零向量和虚警率的短文本表示方式。实验表明,在6个不同领域的实验语料测试环境下都较现有方法有明显提高,在部分召回率相同的情况下,精度有2-3倍以上的提高;. 2) 快速拷贝检测算法:在短文本表示的基础上,为了能够适用于海量文本数据的检测,我们根据云计算框架和GPU高并行性的特点,研究了适用于相似度计算、检测和定位算法,以及相应的索引方法,并构建了海量文本复制检测系统平台。计算效率和精度都较目前流行的方法有大幅度提高,采用GPU加速平台计算效率较单核CPU有1000倍以上提高;. 3) 标准语料库构建:为了方便不同算法之间的横向对比,我们构建了包含1.4TB语料的,多种颗粒度,多语言文本复制检测标准评测库,为目前复制评测中语料库和评价标准不统一等问题提供一个对比语料库;. 4) 信息流表示和传播趋势分析:针对社会网络特点和舆情分析等实际应用需求,我们结合网络爬虫、拷贝检测算法、舆情分析等相关研究,开展了信息流表示和传播趋势分析研究工作,并且将拷贝检测算法、舆情分析、趋势分析等作为重要组成部分应用于互联网高速管控系统中。. 经过三年的研究,我们在 ACL, SIGIR, IJCAI, EMNLP, CIKM, COLING, IJCNLP等国际权威会议和期刊上发表了30篇学术论文,其中2010年和2012年发表于信息检索领域顶级会议的SIGIR的关于部分文本拷贝检测的文章,首次提出了该问题,并分别利用云计算框架和GPU众核计算进行解决,3年来引用次数已超过30次,是近年来在顶级会议上发表的为数不多的关于拷贝检测的论文。申请专利2 项(其中1项已经获批),相关成果作为互联网高速管控系统的重要组成部分,获得了2012年上海市科技进步二等奖和2012年教育部科技进步二等奖,从而圆满地完成了任务书所规定的任务。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于全模式全聚焦方法的裂纹超声成像定量检测
基于图卷积网络的归纳式微博谣言检测新方法
人工智能技术在矿工不安全行为识别中的融合应用
面向工件表面缺陷的无监督域适应方法
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
跨语言文本复制检测研究
移动云计算模式下的场景文本感知方法研究
基于中文文本的计算机中介通信中欺骗检测研究
基于统计学习的云计算系统故障检测与诊断方法研究