The key formulation of cross-media hashing is to learn a common Hamming space to enable cross-media retrieval. Due to the efficiency and low memory cost, cross-media hashing has been a hot topic in retrieval domain. This project will study network big data oriented hashing for cross-media retrieval problem based on analyzing the characteristics of network big data, mainly including the following aspects: 1) Generally, due to the dynamic manner of data points on Internet, hashing method loses its efficiency when data points emerge in a streaming manner. To address this issue, online learning is utilized to improve the efficiency of hash functions learning; Moreover, to address the problem of new semantic class emerging, transfer learning is adopted to improve the expansibility of hash functions; 2) In order to solve the problem of labels containing noise, the semantic correlations between data points and labels, and knowledge graph are utilized to reduce the effectiveness of noisy data first when training hash functions. 3) In order to solve the problem of training dataset incompleteness, we propose to utilize the semantic correlations among data data points and pseudo label to train hash functions. Through the research of the above content, a theory of efficient cross-media retrieval research for network big data is formed. This project provides theoretical foundation and experimental verification for the development and practical implementation of cross-media retrieval.
跨媒体哈希的主要思想是把异构数据映射到一个共享汉明空间,实现跨媒体检索,因其计算高效和占用内存小,成为检索领域的一个研究热点。本项目针对网络大数据的特点,展开面向网络大数据的跨媒体哈希检索的研究,主要内容包括:1)由于网络数据是动态的,针对因新数据的产生使哈希方法失去高效性的问题,提出结合在线学习理论研究只利用新数据训练哈希函数的方案;针对新数据含新语义类别的问题,提出结合迁移学习理论研究使哈希函数扩展到新类别的方案;2)针对网络数据标签含有噪声的问题,提出利用挖掘各模态数据与标签的语义关联、知识图谱等理论,减少噪声数据造成的负面影响;3)针对网络多模态数据存在模态缺失和标签缺失的问题,提出充分利用模态缺失数据、伪标签学习哈希函数的方案。通过对以上内容的研究,形成了面向网络大数据的跨媒体检索一套理论,为跨媒体检索系统的理论研究和应用开发提供一定理论支撑和实验验证。
随着信息技术和社交网络的快速发展,网络上的数据规模迅速增长,如何在海量数据中检索自己想要的信息成为一个挑战。而且网络上的数据通常结构复杂,例如模态异构、数据低质等,如何进行精确而快速的检索成为研究热点。由于哈希方法由于其内存高效和运算速度快,而受到研究者的广泛关注,在多媒体分析、计算机视觉等领域有着举足轻重的地位。目前,虽然有许多国内外学者对跨模态哈希方法进行了大量而卓有成效的研究,但是面向复杂网络数据研究起步阶段。在此研究背景下,本项目开展了面向网络大数据的跨模态哈希检索研究。本项目从为满足网络数据存储空间小、检索速度快、跨媒体检索的需求,本项目在分析网络大数据的特点的基础上,针对网络数据特点,重点研究哈希表示的模型构建、跨模态对齐方法、优化方法等方面的内容,以期提升哈希算法的检索精度、提升训练的效率,能更好地解决网络环境下的跨媒体检索问题。完成了研究计划,达成了预期目标。在项目实施过程中,取得了如下的重要研究成果:(1)提出了基于在线学习的哈希表示学习方法,解决了面向动态数据的哈希学习训练效率低的问题;(2)提出了基于语义对齐哈希表示学习方法,利用图像的属性缩小了异构鸿沟,提升了检索的精度;(3)提出基于协同矩阵分解的跨模态哈希表示学习方法,将类别标签和矩阵分解融入一个框架学习子空间,提升了检索的精度;(4)提出了快速监督跨媒体哈希检索方法,缩减了由于两两相似度矩阵导致的过高的训练时间复杂度;(5)提出了鲁棒哈希学习方法,将一致性和不一致性表示学习、鲁棒两两相似度矩阵融合到哈希表示学习;(6)提出基于自注意力机制的跨模态检索方法,利用注意力机制实现图像文本模态的实体、关系对齐。.在本项目的资助下发表学术论文22篇,其中包括在TKDE、TCYB、PR在内的SCI中科院二区以上论文8篇,中国计算机学会(CCF)推荐B类会议ICMR论文1篇,申请发明专利17项,其中授权6项,获得国山东省高等学校优秀科研成果奖三等奖1项(首位)。在项目实施过程中,以项目负责人为团队负责人的科研团队立项山东省高等学校青年创新团队--数据分析与智能计算(资助经费200万)。此外,在人才培养方面,培养博士生1人,硕士生6人。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于余量谐波平衡的两质点动力学系统振动频率与响应分析
物联网中区块链技术的应用与挑战
面向大数据跨媒体检索的多模态哈希学习方法研究
面向视频大数据检索的哈希方法研究
面向社交网络图像快速检索的语义哈希算法研究
面向流式大数据检索的增量哈希学习方法研究