Similarity query is a method of searching semantically related results from database, which lays the foundation for many important applications of information fields. Nowadays,applications such as mobile internet, social networking etc. bring large-scale heterogeneous, structural complicated data, and with rich semantic and association relationship. Hash-based similarity query techniques focusing on the designing effective query scheme to improve the efficiency and quality, becoming the key technique of approximate similarity query of high-dimensional data. However, they cannot satisfy the demand of query optimization and scalability on the massive high-dimensional data. With the database integration of hash-based approximate similarity query as a starting point, this project focuses on approximate similarity query optimization of the massive high-dimensional data, designing index and query optimization methods with database techniques; Based on the hash-learning similarity query processing technologies and frameworks, the optimization and the data encoding methods will be studied; High-dimensional data similarity query and computation framework will be researched and developed on the massive distributed clusters platform. Finally the theoretical analysis and experimental tests will be conducted and compared with the existing research work. In addition, the proto-system and algorithms will be researched and developed. The contents of our research are the core of the similarity query, and the research results will provide meaningful solution of similarity query, supporting the query optimization and result quality for the massive data management system, which has important significances of application and theory.
相似性查询从数据库中查询语义相关对象,是信息领域诸多应用的基础。移动互联网、社交网络等新应用带来了结构多样、语义丰富、具有关联关系的海量高维的复杂数据。基于哈希的相似性查询以研究有效的查询方案为核心,成为高维数据近似相似性查询的关键技术。现有的研究主要集中在计算效率和查询质量方面,难以满足当前海量高维数据在查询优化、扩展性等方面的需求。本项目主要针对海量高维数据近似相似性查询优化,以数据库集成相似性查询为出发点,研究近似相似性查询与关系集成、索引设计及查询优化方法;基于哈希学习的处理技术和框架,研究编码选择方案和优化数据相关性哈希学习;在集群平台上研究高效的海量高维数据相似性查询及原型系统,并对课题进行理论分析及实验测试。本项目的研究内容是相似性查询的核心内容,相关研究成果将为海量高维数据相似性查询提供新的解决思路,为查询优化和质量保证等问题提供有效的支撑,具有重要的理论意义和应用价值。
本项目以互联网、智慧农业为背景,在海量高维数据处理,尤其是相似性查询处理方面从理论和应用等几个主要方面进行了深入的研究。主要研究1)从整体视角研究基于随机投影技术的高维数据相似性查询问题,研究了哈希编码的方案;2)基于深度哈希学习的高维数据相似性查询的求解和计算技术,研究基于深度学习技术的哈希编码和计算技术,用于解决海量高位数据的相似性计算问题。结合卷积神经网络和哈希技术实现商标图像检索,通过深度学习技术提取商标图像特征,使用位哈希对数据对象编码,在海明空间折中查询的质量和效率.基于卷积神经网络模型,提出了深度哈希算法,并研究了损失函数和该数据集上的优化器选择,通过获取符合哈希编码规范的位编码实现对在二元空间对商标图像数据快速检索。通过卷积神经网络实现商标图像特征提取,通过损失函数优化哈希编码.在哈希编码基础上,实现在海明空间商标图像在线高效的检索,提高查询效率;3)深度哈希学习的在商标检索和菊花表型相似性计算等方面的应用;4)针对菊花图像,提出了基于多步探测LSH的植物表型相似性计算。采用SIFT技术提取了菊花图像特征,并采用BoVW模型进行建模。为了提升计算效率,采用多探测局部位置敏感哈希技术构建菊花图像数据的哈希数据结构,在菊花相似性查询方面提升了计算效率,并确保了计算结果的质量。此外,在非均衡数据分析方面,研究了随机过采样技术在分类中的应用。总之,本课题的研究综合了数据库、深度学习、图像处理等相关的技术,研究海量高维数据智能计算技术,提供基于端到端的数据解决方案,在分布式计算性能、扩展性以及查询效率等方面提供良好的思路和方案。在本项目资助下,发表论文SCIE/EI核心论文25篇,会议论文5篇;申请发明专利2项,软件著作权4项,培养硕士生4名和本科生10余名,参加国际/国内学术会议5次。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于哈希的海量高维数据近似最近邻查询研究
高维大数据相似性连接查询关键技术研究
云计算环境下海量数据查询优化与智能处理的研究
海量高维不确定性数据的高效查询关键技术研究