多维数据布鲁姆过滤器的理论与技术

基本信息

批准号：61472194

项目类别：面上项目

资助金额：80.00

负责人：钱江波

学科分类：

依托单位：宁波大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：陈华辉,谢志军,俞建定,陈叶芳,程劼,吴大猛,江虹,王忠伟,刘根平

关键词：

布鲁姆过滤器硬件加速距离敏感哈希函数并行计算多维数据

结项摘要

With data filtering technology, valuable data can be fast purified from static or dynamic big data for further processing. This technology is a very effective tool in the current era of data explosion. Although the data filters for single dimension data have been researched and used for many years, the research on filters for multi-dimensional data is being seldom studied, even the minor contribution is mainly from the judgment of belonging to a low-dimensional data set. Focusing on processing multi-dimensional data, we propose some new theories and implementation techniques for high-performance data filters. The study includes: (1) We propose Bloom filter based associative deletion theory and algorithms for low-dimensional data. This theory can also provide direct calculation method for many other operations, such as semi-join, update of sliding-window, etc. (2) We propose theories and algorithms of multi-granularity locality-sensitive Bloom filter for high-dimensional data. (3) We propose a new hardware coprocessor using pipeline acceleration for filtering in front-ends of data processing. (4) We propose batch processing and pipeline processing methods in the MapReduce framework for filtering acceleration in a back-end data processing server. The study is a project of originality and will contribute significance theories and techniquies for data processing.

数据过滤技术能够从静态或动态的海量数据中快速提纯出有价值的数据做进一步处理，它是当前数据爆炸时代非常有效的工具。尽管单维数据过滤器已经研究和应用多年，但针对多维数据过滤器的研究还不多，且主要集中在低维数据的集合判断问题。基于数据管理技术的前瞻性考虑，项目以多维数据为处理对象，探索高性能数据过滤器的理论和实现技术，为大数据处理领域提供先进、实用的解决方案。研究内容包括：(1)提出低维数据布鲁姆过滤器关联删除概念和方法，该方法也能用于半连接、窗口更新等其它操作；(2)针对高维数据的不同过滤粒度，提出多粒度距离敏感布鲁姆过滤器方案；(3)结合硬件和并行计算的高效性，设计实现可用于数据处理前端流水线加速的硬过滤器；(4)设计实现后端数据处理服务器的基于MapReduce的批处理和流水线加速方法。该项研究具有原创性，对提高数据处理速度，拓展数据管理技术的理论和方法有重要的理论和现实意义。

项目摘要

数据过滤技术能够从静态或动态的海量数据中快速提纯出有价值的数据做进一步处理，是当前数据爆炸时代非常有效的工具。基于数据管理技术的前瞻性考虑，项目以多维数据为处理对象，探索高性能数据过滤器的理论和实现技术，为大数据处理领域提供先进、实用的解决方案。研究内容包括：提出低维数据布鲁姆过滤器关联删除概念和方法，该方法也能用于半连接、窗口更新等其它操作；针对高维数据的不同过滤粒度，提出多粒度距离敏感布鲁姆过滤器方案；结合硬件和并行计算的高效性，设计实现可用于数据处理前端流水线加速的硬过滤器；设计实现后端数据处理服务器的基于MapReduce 的批处理和流水线加速方法。项目按计划执行，很好地完成了预定目标，部分成果如：（1）创造性地提出可对齐的局部性敏感哈希函数族，在此基础上，提出了新型多粒度距离敏感布鲁姆过滤器，可以处理多个不同距离的近似查询。提出控制假阳性和假阴性的理论和方法。论文得到审稿专家高度评价，还被包括《美国科学院院刊》(PNAS)等期刊和会议多次引用。（2）提出一种新的数据结构，能够分别保持两维数据单独的摘要信息，还能够保持两维数据之间的关联信息并执行一般数据和流数据的关联删除，并采用硬件协处理器来加速运算。（3）大数据时代的数据很多是用海明码表示的，而在海明空间不能采用前述多粒度距离敏感布鲁姆过滤器方案，因为无法构造虚拟的过滤器。我们创造性的将查询点虚拟化，扩大查询半径，分析相关参数和理论，实现海明空间的多粒度距离敏感布鲁姆过滤器。共发表高水平学术论文24篇，其中SCI检索7篇、EI检索14篇，申请人有3篇一作为CCF推荐的A类期刊，申请发明专利14项，其中授权发明专利4项，软件著作权2项。培养研究生24名、博士生2名，毕业研究生13名。该项研究具有原创性，可广泛应用于大数据粗粒度和细粒度处理，对提高数据处理速度，拓展数据管理技术的理论和方法有重要的理论和现实意义。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2016

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.11707/j.1001-7488.20210410

发表时间：2021

DOI：

发表时间：2017

DOI：10.13722/j.cnki.jrme.2019.0547

发表时间：2019

钱江波的其他基金

批准号：60803021

批准年份：2008

资助金额：18.00

项目类别：青年科学基金项目

相似国自然基金

多维数据的统计理论

批准号：19131030

批准年份：1991

负责人：成平

学科分类：A0401

资助金额：15.00

项目类别：重点项目

模糊、动态多维数据建模理论与方法研究

批准号：70771110

批准年份：2007

负责人：刘青宝

学科分类：G0112

资助金额：20.00

项目类别：面上项目

多维气候大数据存储与处理关键技术研究

批准号：61672312

批准年份：2016

负责人：杨广文

学科分类：F0204

资助金额：64.00

项目类别：面上项目

面向多维数据的自动导航和知识发现的理论与方法研究

批准号：60473072

批准年份：2004

负责人：谭少华

学科分类：F0202

资助金额：23.00

项目类别：面上项目

多维数据布鲁姆过滤器的理论与技术

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于MCPF算法的列车组合定位应用研究

智能煤矿建设路线与工程实践

基于PROSAIL模型和多角度遥感数据的森林叶面积指数反演

区块链技术:从数据智能到知识自动化

衬砌背后空洞对隧道地震响应影响的振动台试验研究

钱江波的其他基金

多核数据流连接处理器及相关算法研究

相似国自然基金