Human activity understanding is a very important research topic in artificial intelligence. The traditional activity understanding techniques conduct understanding only according to the information presented in the observed images, but they can not utilize the knowledge which is not directly reflected in the images. Hence, the activity understanding is limited to the level of actions and poses, and it is very hard to dive into the deeper level with respect to the activity intention. In this research, we plan to create an “entity-attribute-relationship” network, i.e., the large-scale visual genome, so as to achieve the more abstract human action understanding. Based on the methodology of feature learning, we achieve semantic entity encoding employing the appearance-level features of human activities. Employing the reinforcement learning methods, we build the visual genome network and achieve activity understanding based on semantic path searching. Taking advantage of the high-level semantic guiding, we implement attention-driven low-level visual algorithms. This study tries to obtain directional breakthroughs and provides new ideas and methods for the research field of the human activity understanding.
人体行为理解在人工智能领域具有重要的研究和应用意义。目前传统的行为理解技术,仅能根据图像中的信息进行行为的判断,而无法结合图像中未体现的知识进行推理,因此对行为的理解还仅停留在对表观动作和姿态等层面的直接理解,难以深入到表观信息背后的行为意图和更深层含义。为此,本申请拟通过模仿大脑的理解过程,构建一个“实体-属性-关系”网络,即大规模视觉基因组,实现更抽象的人体行为理解方法:以特征学习理论为基础,研究人体行为的表观性特征,实现语义实体编码;通过强化学习方法,构建视觉基因组网络,实现基于语义路径搜索的深层行为理解;同时,在基于视觉基因组高层语义的指导下,实现注意力机制驱动的低层视觉算法。本项目的研究拟在人体行为理解的基础研究上取得方向性的突破,为人体行为理解方法提供新思路和新方法。
项目拟通过研究视觉基因组网络模拟人脑理解过程,推动视觉行为理解技术的进展,在人工智能领域具有重要的研究和应用意义。课题组对视觉基因组环境下的人体行为理解理论和方法展开研究,并提出了具体的研究方法和解决方案。首先,提出了视觉基因组环境中的特征提取与异构特征相似性度量方法,建立了视觉基因组网络低层处理单元,使视觉基因组网络可以处理图像特征并向上传递,作为语义推理、分类的基础。其次,研究了行为理解视觉基因组的结构设计与语义路径搜索方法,具备全局适应性的特征检测能力,具有快速、高效的特点。再次,提出了基于高层语义引导的低层视觉特征提取方法,利用高层语义解决行为识别复杂场景中低层特征失效问题。在上述理论研究基础上,将理论方法应用于机器视觉边缘计算实践,验证了理论的科学意义,取得了良好的应用效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于大规模手机感知使用行为的用户理解
基于数据驱动和随机句法的视觉行为理解
人机交互合作装配中人体行为分析与理解方法研究
基于计算机视觉的复杂场景下行为理解研究