基于哈希的海量高维数据近似最近邻查询研究

基本信息
批准号:61472298
项目类别:面上项目
资助金额:80.00
负责人:崔江涛
学科分类:
依托单位:西安电子科技大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:李辉,彭延国,应作斌,王蒙,刘英帆,崔苗苗,冯小康,杨阳
关键词:
哈希方法近似最近邻查询高维数据海量数据管理
结项摘要

To address huge complexity of storage and computation that is brought about by large-scale high-dimensional data, we explore the hashing theory and its application in nearest neighbor search in this project. Though hashing technology is widely used as an effective method for compact representation of high-dimensional data, there still exists some drawbacks when dealing with approximate nearest neighbor search. Existing methods either obtains their efficiency in time by costing a huge amount of space or saves the space by sacrificing time. In this project, we first propose a novel version of approximate nearest neighbor problem, called I-th approximate nearest neighbor. Then, based on the analysis of the mechanism of hash mappings for high-dimensional data, we propose a computing model of hashing for approximate nearest neighbor search and build a framework of high-dimensional indexing and search based on linear order structures, in order to solve the issue of huge storage for existing methods. Finally, as for the hashed hamming space, we explore the mechanism of indexing and search for hamming distance and enhance the efficiency of nearest neighbor search in hamming space, as well as solve the high complexity of search for existing methods. In essence, there are two different solutions, "collision and filtering" and "compression and representation", for hashing to solve approximate nearest neighbor search, which could be combined together in this project. Its main feature is to bring about the efficiency in storage space and search time simultaneously and further satisfy the requirement of storage and search for large-scale high-dimensional data in the environment of big data.

本课题针对海量高维数据带来的存储、计算复杂度过高的问题,研究哈希理论及其在最近邻查询中的应用。哈希作为一种数据紧致表达的有效手段已经得到广泛应用,但是在处理近似最近邻查询时依然存在缺陷,现有方法或者以巨大的空间开销换取时间高效性,或者以时间开销节省存储空间。本课题首先针对最近邻查询,研究并提出一种返回近似第I个近邻的新型查询问题。其次,分析高维数据的哈希映射机理,提出面向近似最近邻查询的哈希计算模型,建立基于线序的高维向量空间索引与查询框架,解决现有方法存储开销巨大问题;最后,针对哈希映射后的海明空间,研究面向海明距离的索引与查询机理,实现海明空间中的高效最近邻查询,解决目前方法查询复杂度过高问题。本质上,哈希用于近似最近邻查询,存在"碰撞"过滤和压缩表达两种截然不同的解决思路,本课题融合两种思路,其特色是同时实现存储空间和查询时间的高效性,满足大数据环境下海量高维数据的存储和查询需求。

项目摘要

本课题针对海量高维数据带来的存储、计算复杂度过高的问题,研究哈希理论及最近邻查询方法,突破“海量高维数据的高效表达与近似计算”和“海明空间索引与查询机理”两个关键科学问题,并将这些理论成果迁移至复杂网络数据的高效管理与挖掘、大规模图像数据的紧致表达与检索以及复杂数据的安全计算与检索三个领域。项目组首先提出面向运动对象的近邻检索方法,优化基于聚类的高维数据近邻检索方法,建立新的基于 LSH 的高效索引机制,从而进一步提升了海量高维数据的索引和检索效率;紧接着将海量高维数据的索引机制引入网络数据管理中,提升了网络数据的组织管理效率,从而更好的实现一种典型网络数据(社会数据)的挖掘;为了进一步提升图像检索的效率,项目组针对灰度直方图、BOF特征等设计了新型的紧致表达方法,基于矩特征设计了高效的图像分类方法,再进一步结合项目组提出的海量高维数据索引技术,提升图像检索和分类的效率;最后,项目组成员依托于基于LSH的高效索引机制,提出了面向文本、地理信息数据和高维数据等不同应用于场景的安全检索方法,设计了通用的距离度量机制的安全计算方法和加密数据的高效安全访问方法,较为系统的结局了复杂数据的安全计算与检索问题。.项目组通过四年的持续深耕,共计发表论文 24 篇,其中 CCF Rank A / 中科院 I 区论文 3 篇,中科院 II 区论文 8 篇, CCF Rank B 会议论文 1 篇;新增申请发明专利 7 项,新增授权发明专利 6 项,其中新增申请并授权专利 3 项;培养已毕业博士生4人,已毕业硕士生25人。本课题的顺利开展为“海量高维数据的最近邻查询”的理论研究与实际成果转化奠定了技术基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
5

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020

崔江涛的其他基金

批准号:61173089
批准年份:2011
资助金额:55.00
项目类别:面上项目

相似国自然基金

1

基于特征融合的图像近似最近邻搜索哈希方法研究

批准号:61370125
批准年份:2013
负责人:郎波
学科分类:F0211
资助金额:78.00
项目类别:面上项目
2

海量高维数据相似性查询与计算研究

批准号:61502236
批准年份:2015
负责人:袁培森
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
3

云计算中TB/PB级海量数据近似查询处理技术的研究

批准号:61272046
批准年份:2012
负责人:杨东华
学科分类:F0202
资助金额:80.00
项目类别:面上项目
4

海量高维不确定性数据的高效查询关键技术研究

批准号:61003074
批准年份:2010
负责人:庄毅
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目