多维数据布鲁姆过滤器的理论与技术

基本信息
批准号:61472194
项目类别:面上项目
资助金额:80.00
负责人:钱江波
学科分类:
依托单位:宁波大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈华辉,谢志军,俞建定,陈叶芳,程劼,吴大猛,江虹,王忠伟,刘根平
关键词:
布鲁姆过滤器硬件加速距离敏感哈希函数并行计算多维数据
结项摘要

With data filtering technology, valuable data can be fast purified from static or dynamic big data for further processing. This technology is a very effective tool in the current era of data explosion. Although the data filters for single dimension data have been researched and used for many years, the research on filters for multi-dimensional data is being seldom studied, even the minor contribution is mainly from the judgment of belonging to a low-dimensional data set. Focusing on processing multi-dimensional data, we propose some new theories and implementation techniques for high-performance data filters. The study includes: (1) We propose Bloom filter based associative deletion theory and algorithms for low-dimensional data. This theory can also provide direct calculation method for many other operations, such as semi-join, update of sliding-window, etc. (2) We propose theories and algorithms of multi-granularity locality-sensitive Bloom filter for high-dimensional data. (3) We propose a new hardware coprocessor using pipeline acceleration for filtering in front-ends of data processing. (4) We propose batch processing and pipeline processing methods in the MapReduce framework for filtering acceleration in a back-end data processing server. The study is a project of originality and will contribute significance theories and techniquies for data processing.

数据过滤技术能够从静态或动态的海量数据中快速提纯出有价值的数据做进一步处理,它是当前数据爆炸时代非常有效的工具。尽管单维数据过滤器已经研究和应用多年,但针对多维数据过滤器的研究还不多,且主要集中在低维数据的集合判断问题。基于数据管理技术的前瞻性考虑,项目以多维数据为处理对象,探索高性能数据过滤器的理论和实现技术,为大数据处理领域提供先进、实用的解决方案。研究内容包括:(1)提出低维数据布鲁姆过滤器关联删除概念和方法,该方法也能用于半连接、窗口更新等其它操作;(2)针对高维数据的不同过滤粒度,提出多粒度距离敏感布鲁姆过滤器方案;(3)结合硬件和并行计算的高效性,设计实现可用于数据处理前端流水线加速的硬过滤器;(4)设计实现后端数据处理服务器的基于MapReduce的批处理和流水线加速方法。该项研究具有原创性,对提高数据处理速度,拓展数据管理技术的理论和方法有重要的理论和现实意义。

项目摘要

数据过滤技术能够从静态或动态的海量数据中快速提纯出有价值的数据做进一步处理,是当前数据爆炸时代非常有效的工具。基于数据管理技术的前瞻性考虑,项目以多维数据为处理对象,探索高性能数据过滤器的理论和实现技术,为大数据处理领域提供先进、实用的解决方案。研究内容包括:提出低维数据布鲁姆过滤器关联删除概念和方法,该方法也能用于半连接、窗口更新等其它操作;针对高维数据的不同过滤粒度,提出多粒度距离敏感布鲁姆过滤器方案;结合硬件和并行计算的高效性,设计实现可用于数据处理前端流水线加速的硬过滤器;设计实现后端数据处理服务器的基于MapReduce 的批处理和流水线加速方法。项目按计划执行,很好地完成了预定目标,部分成果如:(1)创造性地提出可对齐的局部性敏感哈希函数族,在此基础上,提出了新型多粒度距离敏感布鲁姆过滤器,可以处理多个不同距离的近似查询。提出控制假阳性和假阴性的理论和方法。论文得到审稿专家高度评价,还被包括《美国科学院院刊》(PNAS)等期刊和会议多次引用。(2)提出一种新的数据结构,能够分别保持两维数据单独的摘要信息,还能够保持两维数据之间的关联信息并执行一般数据和流数据的关联删除,并采用硬件协处理器来加速运算。(3)大数据时代的数据很多是用海明码表示的,而在海明空间不能采用前述多粒度距离敏感布鲁姆过滤器方案,因为无法构造虚拟的过滤器。我们创造性的将查询点虚拟化,扩大查询半径,分析相关参数和理论,实现海明空间的多粒度距离敏感布鲁姆过滤器。共发表高水平学术论文24篇,其中SCI检索7篇、EI检索14篇,申请人有3篇一作为CCF推荐的A类期刊,申请发明专利14项,其中授权发明专利4项,软件著作权2项。培养研究生24名、博士生2名,毕业研究生13名。该项研究具有原创性,可广泛应用于大数据粗粒度和细粒度处理,对提高数据处理速度,拓展数据管理技术的理论和方法有重要的理论和现实意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

敏感性水利工程社会稳定风险演化SD模型

敏感性水利工程社会稳定风险演化SD模型

DOI:10.16265/j.cnki.issn1003-3033.2021.04.003
发表时间:2021
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

钱江波的其他基金

批准号:60803021
批准年份:2008
资助金额:18.00
项目类别:青年科学基金项目

相似国自然基金

1

多维数据的统计理论

批准号:19131030
批准年份:1991
负责人:成平
学科分类:A0401
资助金额:15.00
项目类别:重点项目
2

模糊、动态多维数据建模理论与方法研究

批准号:70771110
批准年份:2007
负责人:刘青宝
学科分类:G0112
资助金额:20.00
项目类别:面上项目
3

多维气候大数据存储与处理关键技术研究

批准号:61672312
批准年份:2016
负责人:杨广文
学科分类:F0204
资助金额:64.00
项目类别:面上项目
4

面向多维数据的自动导航和知识发现的理论与方法研究

批准号:60473072
批准年份:2004
负责人:谭少华
学科分类:F0202
资助金额:23.00
项目类别:面上项目