Learning to hash has become an increasingly hot research topic in large-scale machine learning and media retrieval. Large-scale data has multiple views or feature representations, reflecting different characteristics of the same objects. However, in real applications, the complex structure of large-scale multi-view data, e.g., high dimensionality, streaming view, distributed storage poses big challenges on learning high-quality latent hash code, and may also lead to unsatisfactory performances in the following search and retrieval tasks. This project aims to comprehensively study multi-view hash learning on large-scale complex multi-view data. Specifically, (1) we propose high-dimensional multi-view hashing by imposing some structure constraints on projection matrices. It performs fast projection on high-dimensional data, and thus significantly reduces both computational and storage complexities. (2) We propose streaming-view hashing for the multi-view data with streaming views. It efficiently updates hash functions in each view and latent hash codes, and improves the robustness of dealing with new views. (3) We propose distributed multi-view hashing for multi-view data stored in a distributed environment. It imposes the consistency on local nodes and solves the distributed parallel optimization for large-scale hash code learning via alternating direction method of multipliers (ADMM). This project will have a big contribution to enriching multi-view hashing research, and significantly promote the performance and applicability of multi-view hashing for large-scale search and retrieval.
哈希学习是大规模机器学习、媒体检索领域的研究热点。海量数据往往存在多个不同的视图,其反映了相同数据的不同特性。在实际场景中,多视图数据的高维度、流式视图、分布式存储等复杂特性使得目前的哈希方法难以学习到高质量的潜在哈希编码,进而影响后续搜索与检索等任务的性能。本项目针对上述复杂结构的海量多视图数据,开展多视图哈希学习研究,包括:(1)针对高维多视图数据,研究多视图哈希的快速投影算法,通过约束投影矩阵的内在结构,降低投影的计算和存储复杂度;(2)为了处理流式视图,研究流式多视图哈希,高效地在线微调各个视图的哈希函数以及潜在哈希码,增强处理新视图的鲁棒性;(3)面向分布式存储的多视图数据,研究分布式多视图哈希,引入局部节点一致性的约束,基于交替方向乘子算法实现分布式哈希的并行优化。本项目对推动多视图哈希的理论和方法研究具有重要意义,能够促进其在大规模搜索和检索等任务上的适用范围和性能。
哈希学习是大规模机器学习、媒体检索领域的研究热点。海量数据往往存在多个不同的视图,其反映了相同数据的不同特性。在实际场景中,多视图数据的高维度、流式视图、分布式存储等复杂特性使得目前的哈希方法难以学习到高质量的潜在哈希编码,进而影响后续搜索与检索等任务的性能。本项目围绕复杂场景开展多视图哈希学习研究,多视图学习、哈希学习、分布式优化、多标记学习、在线学习、图卷积神经网络等相关理论为基础,结合相关前沿理论与思想,针对分布式数据、多标记数据、流式数据等复杂多视图数据,研究如何学习到高质量的哈希编码,提升后续大规模检索任务的性能。本项目研究包括(1)提出了监督分布式多视图哈希方法;(2)提出了无监督分布式多视图哈希方法;(3)提出了深度图像-标记联合哈希方法;(4)提出了在线无监督跨模态离散哈希方法;(5)提出了多模态图卷积哈希;(6)提出了结合局部和全局结构信息的无监督鉴别深度哈希方法;(7)提出了多视图潜在图哈希方法;(8)提出了半配对非对称跨视图深度哈希方法;(9)提出了图像集哈希方法。本项目的研究成果对推动多视图哈希学习的基本理论和方法研究具有重要意义,能够促进哈希学习在大规模检索任务上的适用范围和性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
面向复杂数据的哈希学习方法研究
面向大数据的哈希学习理论与应用
面向流式大数据检索的增量哈希学习方法研究
面向大数据跨媒体检索的多模态哈希学习方法研究