Cross-modal retrieval has drawn much attention due to the rapid growth of multimodal data. The current researches mainly focus on mapping the multi-modal data into common subspace and semantic space, and the retrieval accuracy is not high, which seriously restricts the popularization and application of cross-modal retrieval technology, and become the bottleneck that must be solved. The main reasons resulting in the low retrieval accuracy include that, the training data are noisy, the models only consider the low level attributes of data and the high level of semantics, and there is a lack of local data semantics and structure property representation. In order to obtain multi-level cross modal retrieval scheme, this project aims to study data denoising, data local feature acquisition, feature fusion representation and multiple retrieval strategy integration technology for cross modal retrieval. Besides, we make use of deep learning technology to establish data local semantic correlation, local feature fusion, and realize the integration of multiple retrieval strategies. The project puts forward a new technical route and model in order to better improve the cross modal retrieval accuracy, since the project uses much useful information by simultaneously considering the global and local data structure and semantic aspects of data, and integration strategies. We also try to introduce parallel computing technology by expanding the model to large-scale cross modal data retrieval problems.
随着多模态数据的快速增长,跨模态检索受到越来越多的关注。当前相关研究主要关注于将多模态数据底层特征投影到共同子空间及语义空间,实现跨模态检索,检索准确度不高,严重制约技术的推广应用,成为跨模态检索必须突破的瓶颈。究其原因,主要是训练数据存在噪声、模型只考虑数据最底层属性及最高层语义,存在数据局部语义及数据结构特征表示缺失问题。为得到基于多层次的跨模检索方案,本项目拟研究跨模态检索中数据去噪、数据局部特征获取、局部表示融合及多检索策略集成技术,同时利用深度学习技术建立数据局部语义关联、局部特征融合,实现多检索策略的集成。项目同时关注数据整体、局部及语义多个层面,研究相关融合与集成技术,充分利用各种有益信息,提出新的技术路线和模型,期望较好提升跨模态检索准确率,并尝试引入并行计算,将技术拓展到大规模跨模态数据检索。
项目提出了子空间学习跨模态检索、深度跨模态检索及大规模多模态哈希检索技术方案,在论文发表、人才培养等方面都达到预期目标。研究提出了模态依赖的多模态检索算法,利用近邻图正则化对投影数据进行数据关系保持,采用多任务语义强调性进行优化,得到不同模态数据与语义的关联性,提升了多模态检索效果。研究了多模态数据哈希技术,针对哈希离散约束提出了高效的优化方法,减少了哈希学习损失,在学习过程中自适应学习语义信息,大大提高了学习效率与检索效果。研究了基于稀疏重构玻尔兹曼机特征提取网络的深度跨模态检索方法。针对哈希编码的非对称问题及数据表示问题,提出了利用深度神经网络对原始图像及文本数据进行嵌套降维以获得更为有效、判别性更强的数据表示特征。为解决在线学习中的数据编码和数据结构保持问题,提出了为异构成对语义信息自适应学习权重。提出了跨模态对偶子空间学习对抗网络,挖掘不同模态的底层结构信息和模态特有信息,保证了视觉子空间和文本子空间的语义互补性,提高了异构模态的整体相关性。研究了在深度哈希体系结构中生成由语义类别驱动的可解释哈希码,逐步提取异构模态特征的隐层表示,深入利用多模态数据的互补性;将不同类别的判别信息独立地嵌入到哈希码中,直观地解释了它们对哈希检索的不同影响。研究了在深度架构下深度融合多视图特征并协同学习多视图哈希码,逐步增强深度多视图哈希学习框架中表示层的判别能力,基于增广拉格朗日乘子快速离散优化哈希码,避免了量化损失。为消除多模态数据间的语义鸿沟、获得具有相同语义的样本的补充语义信息,研究了利用图特征提取器根据样本本身与其邻居间的邻接关系重构样本表示;提出了跨模态图注意策略,从每个样本对应的成对样本的局部图中生成图注意表示;设计了递归门控记忆网络融合两种模态的特征,选择突出的特征,过滤冗余信息,在公共潜在空间中获得更具辨别力的跨模态特征表示。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
融合视觉特征的城市空间场景跨模态关联学习及其上下文语义模式发现
面向跨模态关联的解纠缠表示学习研究
基于多模态表征学习的时尚数据检索与推荐算法研究
面向跨相机跟踪的场景几何-语义联合理解与关联