高效视觉匹配是实现基于内容的网络图像检索的关键。"语义鸿沟"的存在使得一般图像上的视觉匹配变得异常困难。与之相比,局部重复性图像具有特征的可重复性、局部一致性和结构性等特点,有效利用这些特点有望实现高效的视觉匹配。现有方法仍存在一定的片面性和不足之处,其效率和准确性尚不能满足实际应用需求。对此,本课题从情境建模这一新的角度出发,全面、综合考虑图像、特征的内容及其情境信息表达,以实现高效的视觉匹配。研究包括:1)基于情境建模的视觉码本构建。通过空间情境分析获得结构性的特征表达;并设计新颖的多层正交码本实现高效的量化编码;2)基于空间情境的几何验证。利用空间直方图充分描述特征的情境信息,并结合几何验证估计特征匹配的一致性,提高检索精度;进一步设计基于多划分的情境编码方法,提高验证效率。通过上述研究,将加深对基于情境建模的视觉匹配方法理解,为局部重复性的网络图像检索实用化提供理论和技术上的支持。
本课题从情境建模这一新的角度出发,对视觉匹配方法进行研究,内容主要包括:1)基于情境建模的视觉码本构建,如多层视觉码本构建方法、视觉码本的扩展以及基于视觉匹配核的视觉码本等。 这些方法通过综合考虑图像、特征的内容表达及情境信息以获得结构性的特征表达, 从而提高视觉码本的有效性,实现高效的视觉匹配。 以上述方法为基础,我们实现了一个实时的高效重复性网络图像检索系统。相对于现有的方法,如基于Vocabulary Tree,Bundled Feature和Hamming Embedding等,其检索效率和准确率提高了约40%左右。.2)基于空间情境的几何验证。在图像特征表示的基础上,利用空间直方图以及不同的空间划分方式对特征之间的几何对应关系进行建模,实现高效的图像检索。由于近年来深度神经网络如CNN,DNN在图像分类、检索中的成功应用,我们进一步研究了利用深层神经网络结构进行空间相关情境建模的方法。另外考虑深度神经网络的计算复杂度问题,对模型压缩和快速训练的方面也进行了一定的研究。研究主要内容包括: 深度卷积神经网络的并行训练、识别方法,利用数据的划分实现多个GPU并行训练和识别方法;利用迁移学习方法实现了神经网络模型压缩; 基于深度瓶颈特征的图像分类和检索方法,类比于传统基于局部特征的匹配方法,采用深度卷积网络中的瓶颈层特征输出作为中间层特征,并结合前面的视觉码本构建方法实现图像的分类和检索。. 最后在应用研究中,我们将情境建模方法应用于机器听觉、说话人分割、聚类和语种识别等领域,通过挖掘深层神经网络中不同层次输出的情境信息,得到有效的语音段表示。相对于现有的方法,分类的准确性均有显著的提高, 以语种识别为例,采用层间情境建模方法,识别性能提高了50%以上。. 情境建模方法与目前深度神经网络结构存在着某种必然的联系,其本质是综合考虑对对象内容及其情境信息以得到对象的结构性表达。本项目的研究表明,情境建模方法在视、听觉相关的应用领域中均能有效提高匹配的准确性,具有广泛的应用价值和科学意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
内点最大化与冗余点控制的小型无人机遥感图像配准
城市轨道交通车站火灾情况下客流疏散能力评价
基于产品开发情境匹配的业务产物智能推荐方法研究
基于稀疏松弛匹配与图聚类分析的共同视觉模式挖掘方法与应用研究
基于视觉差异特征的跨域图像匹配方法研究
基于视觉感知的图像语义建模及其在"智慧工厂"中的应用研究