The traditional image recognition research mainly focuses on the recognition of the entity objects in the image, which is not enough for the deep understanding of the semantic content of the image, for example, the human visual action is an important semantic information that the image can express. At present, the research on human visual action mainly focuses on the dynamic data such as video, and rarely studies the actions recognition of static images. This project can make up for this deficiency. This project mainly studies the semantic recognition of human visual actions in static images, including three aspects: first, we study the establishment of human visual actions database for static images in order to facilitate the related experimental research; secondly, we study the image automatic annotation model for human visual actions, which is used to annotating the image actions category, and then the multiple instance learning algorithm and the deep convolution neural network are used to realize this automatic annotation model; finally, the natural language generation model for describing the human visual actions in the image is studied. And the image visual features are combined with the recurrent neural network to achieve this natural language generation model. The research of this project will help to enhance the semantic recognition and understanding of the image content of the computer, and improve the level of intelligent application such as image retrieval, annotation, content management, robot vision and so on.
传统图像识别研究局限于图像中实体对象的识别与理解,对于深入理解图像的语义内容还略显不足。人类的视觉行为就是图像可以表达的一种重要语义信息,但是,目前针对人类行为识别的研究主要集中于视频等动态数据,较少研究静态图像的行为识别。因此,本项目将围绕静态图像中人类视觉行为的语义识别问题开展以下三方面的研究:首先,探究建立面向静态图像的人类视觉行为数据库,为相关实验研究奠定基础;其次,探索图像视觉行为的识别和标注方法,将利用深度卷积神经网络和多示例学习算法,并融合图像视觉特征和辅助文本标签特征,以实现图像行为语义的自动识别标注模型;最后,研究图像视觉行为的自然语句描述方法,将利用循环神经网络并结合图像视觉特征,以实现图像行为语义的自然语句生成模型。本项目的研究,有助于增强计算机对图像语义的识别与理解,进而提高诸如图像检索、标注、内容管理、机器人视觉等各种以图像为处理对象的智能化应用水平。
本项目主要针对静态图像中所呈现的人类视觉行为进行识别与理解,所研究的人类视觉行为语义更丰富,除了基本的动作行为外,还包括各种复杂抽象的高层语义行为。具体研究在真实场景下,通过收集整理真实图像数据,构建大规模图像行为识别数据集,设计并实现图像行为识别标注模型和中文自动描述模型,以增强计算机对图像语义的识别与理解,提高各种基于图像的智能化应用水平。基于本项目的研究,我们建立了一个10万规模的图像视觉行为标注数据库,为图像行为识别以及图像内容的理解等相关研究提供了坚实的数据基础。同时,项目提出了一种改进的双线性池化模型及局部区域特征融合网络、以及引入上下文信息的多分支注意力网络,来提升图像行为识别的性能,有效解决了图像行为识别问题中类内图像背景信息的差异性和类间行为的相似性干扰。此外,项目还提出了一种基于双层LSTM注意力机制的图像中文标注模型,能较好的生成中文自然语句,与各种基线模型比较,所提模型能够生成更加准确多样的中文自然语句。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
基于全模式全聚焦方法的裂纹超声成像定量检测
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于主题发现的图像语义理解与识别
基于多任务概率视觉语义模型的图像场景理解
基于视觉认知理论的图像层次化语义理解研究
社会媒体中图像隐含语义理解方法研究