The automatic image annotation is one of the core technologies in multimedia content understanding and other relative applications. This project will explore the solutions to the existing problems of the low annotation performance and the bad expansibility of the annotation model in the framework of deep learning and transfer learning. This project includes three parts as follows. (1) The large scale vision feature extraction: In the framework of deep learning, for the unsupervised vision feature extraction, the structure and the training of convolution neural networks will be modified and designed to capture the robust latent multilayer vision representations of the image.(2) The construction of the extensional and normative image semantic annotation space: The latent semantic knowledge of the large scale of tagged text collection will be deeply mined to be transferred to the construction of the extensional and normative image semantic annotation space. (3) The annotation model training includes cross-media transfer learning and same-media transfer learning. A transfer learning based on the canonical correlation analysis of the cross-media heterogeneous features will be proposed to obtain the scalable image annotation model parameters. To the problem of domain adaption, we will present a deep transfer learning based on the latent feature space, in which the feature distribution discrepancy between domains will be narrowed and the model learned from labeled image domain can be transferred to the unlabeled image domain . The study of this project will powerfully boost the promotion of the automatic image annotation theory and the large-scale practical application of the automatic image annotation in the real word.
图像自动语义标注方法是多媒体内容理解及各类相关应用的核心技术。本项目在深度学习和迁移学习的框架下,探索解决现有图像自动语义标注中存在的标注性能不高和模型可扩展性不好的问题,将从以下三方面展开研究。(1)大规模视觉特征提取:在深度学习框架下,高效获取鲁棒的潜在多层视觉特征表示。(2)图像语义标注空间的扩展和规范:结合本体论,深度挖掘大量已标注文本中的潜在语义信息,并将其迁移到图像语义标注空间的扩展和规范中。(3)图像语义标注模型学习,包括基于跨媒迁移学习和基于同媒迁移学习的图像语义标注模型学习。提出基于跨媒异构特征典型相关性分析的迁移学习方法,学习到泛化性良好的图像语义标注模型参数;提出基于隐含特征空间的深度迁移学习方法,缩小领域间概率分布差异,将已标注图像领域学习到的语义标注模型迁移到待标注图像领域。本项目的研究将有力地推动图像自动语义标注理论的完善和真实环境下的大规模实用化。
面对真实环境下海量高维、非结构化图像数据,如何对其进行有效的语义分析、理解、合理组织、快速检索,是一项非常重要同时也是非常有挑战性的工作。图像自动语义标注是各类基于语义的图像应用的核心技术。本项目针对现有图像自动语义标注方法在真实环境标注中存在的问题,在深度学习和迁移学习的框架下,深度挖掘不同媒体和不同图像领域的语义知识,探索实现知识迁移的方式和途径,以获得扩展性好的图像语义标注模型,提高在不同图像领域的标注性能。本项目的研究内容具体包括基于深度学习的图像自动标注方法、基于迁移学习的图像特征表示方法和基于跨媒异构迁移学习的图像标注方法三方面研究内容。在基于深度学习的图像自动标注方法研究中,主要提出了以下三种方法:(1)一种基于深度卷积-递归神经网络的手绘草图识别方法;(2)一种融合深度学习和语义树的草图识别方法,即草图语义网络;(3)用迁移深度学习获得的部件特征来初始化字典,融合稀疏编码和深度学习来获取草图特征表示方法。在基于迁移学习的图像特征表示方法研究中,主要提出了以下三种方法:(1)基于深度迁移学习以及多粒度的草图信息的手绘草图特征表示学习方法;(2)基于迁移鲁棒稀疏学习的图像表示方法;(3)一种针对图像表示的基于图和联合域适应的迁移去噪稀疏学习方法。在基于跨媒异构迁移学习的图像标注方法研究中,主要提出了以下两种方法:(1)一种面向弱匹配的跨媒异构迁移学习方法,即基于平衡异构距离的混合拉普拉斯特征映射的迁移学习模型;(2)一种防止过拟合的跨媒异构迁移学习方法。根据项目的研究成果和相关实验数据,已经撰写论文发表在国内外重要学术期刊,或者申请专利进入实审阶段。项目的执行过程中,培养了5名硕士研究生。该项目的研究成果在图像检索和视频理解等方面具有广泛的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
噪声环境下基于深度学习的图像自动标注方法研究
基于多任务深度学习的图像语义分割方法研究
基于随机森林和深度学习耦合模型的RGB-D图像语义标注关键技术研究
基于深度学习的图像文本描述自动生成方法研究