With the rapid development of the social network, the multimedia information on the Internet is growing at an exponential rate. The recognition of the human action in the image has great significance for the personalized retrieval of massive social network data. The network images usually have some text with the description of the context, so the analysis of the image of the action figures with text mining, mining image visual features associated with relevance between texts, establishing recognition model of image semantic annotation and understanding has become a hot issue. The core issue of human action annotation in Internet image is to solve the "heterogeneous gap" problem between the same semantic objects and different modal data. This project focuses on the "heterogeneous gap" between multimodal data as the starting point, and solves the problem through the perspective of multimodal semantic coherence. In this project, we start from the multimodal learning of semantic consistency. The problem of heterogeneous data is solved by combining image feature extraction and multi modal Association. The semantic relation is measured by the distance of multi-modal data. Using the natural language processing method to mine the semantic relations between words, the data sparseness problem of language model is solved. The feature of image is extracted by deep network structure, and the association layer is introduced into the convolution network. The relation between the semantic description of the text and the image feature makes the image feature have a better ability to describe the semantics.
随着社交网络的快速发展,互联网上的图像等多媒体信息正以指数级的速度迅猛增长。图像中人物动作的识别对于海量社交网络数据的个性化检索是很有意义的。网络图像一般都会有一些描述语境的伴随文本,因此结合伴随文本来分析图像中的人物动作,挖掘图像视觉特征与其伴随文本之间关联性,建立识别模型并对图像中语义进行标注和理解已成为一个热点问题。互联网图像中人物行为标注的核心问题是解决相同语义对象、不同模态数据间的“异构鸿沟”问题,本项目以多模态数据间的“异构鸿沟”为出发点,通过多模态语义一致性关联的角度来解决该问题。本项目从语义一致性的多模态关联学习入手,结合图像特征提取和多模态关联,解决数据的异构问题。通过多模态数据的距离来度量语义关系,利用自然语言处理方法解决语言模型的数据稀疏问题。利用深度网络结构提取图像特征,在卷积网络中引入关联层,将文本语义描述和图像特征关联起来,使得图像特征有更好的描述语义的能力。
随着互联网及存储技术的迅猛发展、移动终端等数码产品的广泛使用,社交网络及多媒体应用的日益流行,社交网络上的各种多媒体数据(图像、文本、视频、音频等)呈现爆炸式增长。面对互联网上越来越多的海量社交图像,如何实现有效地组织、利用相关数据来驱动和满足用户查询使用的需求,正成为多媒体领域的一个研究热点,具有广阔的应用背景和深远的研究意义。图像中人物动作能够反映客体行为,对其识别有助于深化图像语义理解。如何准确识别图像中人物动作识别,从而对图像中的人物行为进行检索和解释,是件非常有意义的研究工作,这也是本项目要研究和解决的问题。网络图像一般都会有一些描述语境的伴随文本,本项目结合伴随文本来分析图像中的人物动作,挖掘图像视觉特征与其伴随文本之间关联性,建立识别模型并对图像中语义进行识别和理解。为了更好地进行图像特征提取,研究了对低质图像增强的算法。由于图像底层特征与高层语义之间有鸿沟问题,因此本项目研究了利用深度学习的方法建立不同层次的特征表示。人的视觉感知更倾向于较显著的目标,研究了图像视觉显著性特征。研究了有监督文本主题模型方法,引入主题类别概率分布参数,识别主题类别的语义信息。当目标领域缺少足够多的标注数据时,通过迁移学习利用相关源领域的标注数据,研究了一种共享主题知识的迁移主题模型。对人体姿势分析进行了研究,包括人体检测,基于深度学习的语义分割、状态特征表达等。针对回归网络中的量化误差和识别能力不足问题,研究了基于Transformer与多分辨率网络的人体姿态估计方法。本项目针对为互联网图像进行人体行为识别,构建图像划分和目标对象的语义层次,基于深度学习的语义分割及人体姿态特征表示方法,解决人体姿态复杂多样、文本描述主观性强准确率低等问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
多模态融合的大规模网络视频名人标注研究
融合多尺度上下文的图像标注研究
智能视频监控中基于多模态融合的人体行为识别研究
基于多模态前列腺图像特征融合的多器官联合分割研究