With the improvement of computer performance, network bandwidth and upgrading of digital multimedia acquisition equipment, multimodal network visual media data show a trend of mass growth, how to store, transmit and retrieve these multimedia data effectively has become an urgent problem to be solved, effective data representation can reduce both storage overhead and computational complexity. The traditional network visual media retrieval use a single mode of media object, this project intends to explore sparse representation for multimodal network visual media, the core idea is to model the multimodal data using group sparse and structure sparse, so as to effectively improve the ability of data representation. The research contents include: the model of group sparse and structure sparse, efficient sparse optimization algorithms, image and video sparse representation based on spatial pyramid matching, multimodal network visual media content retrieval based on tensor subspace learning and sparse representation. This project is a further deepening of the network visual media representation method, and explores a new research method to solve the problem of media data representation. Research on representation method of multimodal network visual media based on group sparse and structure sparse will be widely applied in information retrieval, video tracking, behavior recognition and other fields.
随着计算机性能、网络带宽的不断提高以及数字化多媒体采集设备的升级,导致了多模态网络可视媒体数据呈现海量增长的趋势,如何有效地存储、传输和检索这些多媒体数据已经成为人们目前亟待解决的问题,有效的数据表示既能减少存储开销也能降低计算复杂度。本项目针对传统的网络可视媒体表示都是使用单一模态媒体对象,拟探索面向多模态网络可视媒体的稀疏表示研究,其核心思想是利用组稀疏和结构稀疏对多模态数据进行建模,从而有效提高对数据的表示能力。研究内容主要包括:组稀疏与结构稀疏模型、高效的稀疏优化算法、基于空间金字塔匹配的图像视频稀疏表示、基于张量子空间学习和稀疏表示的多模态网络可视媒体内容检索。本项目是对网络可视媒体表示方法的进一步深化,为解决媒体数据的表示问题探索一种新的研究手段。基于组稀疏和结构稀疏的多模态网络可视媒体表示方法研究将在信息检索、视频跟踪、行为识别等领域具有广泛的应用前景。
本项目拟研究网络可视媒体的表示方法及其在信息检索、图像分类等问题中的应用。主要研究内容包括:对比自监督学习、奇异值分解、非负矩阵分解、局部聚合描述子向量算法以及深度优先局部聚合哈希。.提出了鲁棒自动图正则判别非负矩阵分解算法。基于非负矩阵分解的算法被广泛地应用在聚类及分类任务中,然而,存在的这些方法没有同时考虑到鲁棒性、适应图学习以及判别信息。为了解决该问题,我们提出了一种鲁棒自动图正则判别非负矩阵分解算法。具体来说,使用L2,1范数来描述重构误差,自动学习合适的拉普拉斯图,同时利用训练集的标签信息构造相应的正则项。我们的最终目标是学习一个好的投影矩阵,使得该投影矩阵能够移除冗余信息并保持有效成分。另外,我们给出了求解所提优化问题的乘性更新规则,并对目标函数的收敛性给出了证明。.提出了基于多网络对比学习的视觉表示。作为自监督学习的一种重要方法,对比学习在视觉表示中获得了非常大的成功,缩短了自监督学习与有监督学习之间的性能差距。对比学习中最重要的策略是最大化正样本之间的相似性,同时使得正负样本之间更容易被区分开。已有的方法严重依赖于大量存在的负样本,例如SimCLR和MoCo。然而,最近所提的方法, 比如BYOL和SimSiam通过引入非对称结构抛弃了负样本。我们提出了一种多网络对比学习方法并用于视觉表示,该方法整合了端到端和动量编码机制引入更多的负样本。.提出了基于奇异值分解表示的鲁棒人脸识别算法。在人脸识别领域,基于稀疏表示的分类和基于协同表示的分类被广泛使用。尽管二者都获得了很好的分类结果,但对于二者究竟是哪一个更有效仍旧存在争议。我们提出了一种基于奇异值分解的人脸识别方法,在每一类构造的训练数据上执行奇异值分解,通过比较哪一类的奇异向量能够更好地重构测试样本,从而获得测试样本的预测标签。
{{i.achievement_title}}
数据更新时间:2023-05-31
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
基于细粒度词表示的命名实体识别研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于深度表示和迁移学习的社交媒体多模态情感分析
网络多媒体流QoS特征稀疏表示及柔性跨域映射方法研究
面向检索的大规模多模态数据表示方法研究
面向大规模多模态媒体信息检索关键技术研究