高维大数据相似性连接查询关键技术研究

基本信息
批准号:61602231
项目类别:青年科学基金项目
资助金额:20.00
负责人:马友忠
学科分类:
依托单位:洛阳师范学院
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:张瑞玲,王听忠,吕延庆,林春杰,朱玲利
关键词:
可扩展的相似性连接查询算法高维大数据相似性连接查询多重过滤随机映射
结项摘要

Existing big high-dimensional data similarity join query mechanism has some shortcomings: high computational cost, long query time and poor scalability, it is hard to meet the requirements for efficient query and analysis on the huge and growing of high-dimensional data. This project aims to study the theory and application of the key techniques of big high-dimensional data similarity join query: In order to deal with the "curse of dimensionality" problem, we construct the PAA-based multiple filtering mechanism, the random projection based dynamic filtering mechanism and the similarity join query hybrid filtering mechanism to reduce the candidate set size; In order to deal with the scalability problem, we construct the similarity calculation load evaluation model and load balancing strategy, propose the scalable similarity join query strategy; In order to deal with the similarity join on multiple high-dimensional data sets, we design multi-source similarity join order selection strategy, propose the multiple data sets similarity join algorithm based on double data sets similarity join, the direct similarity join algorithm for multiple high-dimensional data sets. The results of this project will provide a certain technical support and theoretical accumulation for big data integration. It is of great significance to improve the efficiency of big data analysis, to enhance the competitiveness of enterprises and our country, to promote rapid development of China's big data applications and big data industry.

现有高维大数据相似性连接查询机制存在计算代价高、查询时间长、可扩展性差等不足,难以满足对海量且持续增长的高维数据的高效查询与分析需求。本项目针对高维大数据相似性连接查询关键技术开展理论与应用研究:针对高维数据相似性连接查询中存在的“维度灾难”问题,构建基于PAA的多重过滤机制、基于随机映射的动态过滤机制和相似性连接查询混合过滤机制,减少候选集合规模;针对高维大数据相似性连接查询面临的扩展性问题,构建相似度计算负载评估模型和负载均衡策略,设计可扩展的高维大数据相似性连接查询策略 ;针对多源高维大数据相似性连接查询代价高的问题,设计多源相似性连接顺序选择策略,提出基于双源连接的多源相似性连接查询算法和多源高维大数据直接相似性连接查询算法。本项目研究成果将为大数据集成奠定理论基础和技术积累,对提高大数据分析能力、利用大数据提升企业和国家竞争力、促进我国大数据应用及产业快速发展,具有重要意义。

项目摘要

大数据集成与大数据融合是进行大数据处理与分析的前提,也是实现大数据价值最大化的关键。相似性连接查询是大数据集成的重要研究内容,其理论和方法的研究已经成为国内外学术界的研究热点之一。同时,相似性连接查询作为大数据分析的一种重要操作,可以提高相似性检索和数据挖掘的效率,在很多领域得到了广泛应用,如相似网页检测、个性化推荐、恶意广告屏蔽、相似图像检索、轨迹聚类等。现有高维大数据相似性连接查询机制存在计算代价高、查询时间长、可扩展性差等不足,难以满足对海量且持续增长的高维数据的高效查询与分析需求。. 本项目主要研究研究内容包括:高维数据相似性连接查询过滤模型构建、可扩展的高维数据相似性连接查询方法和多源高维数据相似性连接查询策略。. 对大数据相似性连接查询技术研究进展进行了综述,分析了现有研究工作的优点与不足,并指出了未来主要研究方向;设计了基于PAA的多重过滤机制、基于随机映射的动态过滤机制和相似性连接查询混合过滤机制,大大减少了候选对规模,有效解决了高维数据相似性连接查询中存在的“维度灾难”问题;设计了相似度计算负载评估模型和负载均衡策略,提出了可扩展的高维大数据相似性连接查询算法,有效解决高维大数据相似性连接查询面临的扩展性问题;设计了基于距离划分树的相似性连接查询算法,既可以提高过滤效果,又可以有效应对数据倾斜问题;设计了基于分层采样方法的相似度分布直方图构建方法,并在此基础上提出了基于阈值估计的Top-k相似性连接查询算法,大量实验结果表明,提出的算法具有较好的性能和扩展性。. 随着大规模高维数据分析处理需求的急剧增长,高维数据相似性连接查询在未来会有较大的发展和广阔的应用前景。本项目研究成果将为大数据集成奠定一定的理论基础和技术积累,对提高大数据分析能力、充分挖掘大数据价值、利用大数据提升企业和国家竞争力、促进我国大数据应用及产业快速发展,具有重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

马友忠的其他基金

相似国自然基金

1

海量高维数据相似性查询与计算研究

批准号:61502236
批准年份:2015
负责人:袁培森
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
2

泛数据双向包容连接查询处理关键技术研究

批准号:61373023
批准年份:2013
负责人:王朝坤
学科分类:F0202
资助金额:76.00
项目类别:面上项目
3

海量高维不确定性数据的高效查询关键技术研究

批准号:61003074
批准年份:2010
负责人:庄毅
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
4

基于EMD距离的数据流分布式相似性查询处理关键技术研究

批准号:61402494
批准年份:2014
负责人:许嘉
学科分类:F0202
资助金额:26.00
项目类别:青年科学基金项目