With the fast development of artificial intelligence, service robot has become a global rising industry. The core function of high-quality service robots is to actively understand complex actions and intentions of target users. However, in unstructured working environments, the wild diversity of human actions, limited data and computation resource often restrict the capacity of robot. To address these challenges, this project aims at developing key technologies of complex action recognition for service robots. First, inspired by perceptual and cognitive characteristics of human vision system, we propose a number of multi-task assisted, multi-level attended, multi-modal fused deep sequential frameworks, in order to achieve spatial-temporal dynamic modeling of complex human actions. Second, we develop a flexible learning scheme to handle both limited data and computation in practice. By coupling knowledge transfer and model compression, our approach can improve robustness and accuracy of deep action models in low-shot, light-weight applications. Finally, we collect multi-modal data sets and show the effectiveness of our models on a service robot system. The implementation of this project will effectively improve the intelligence of service robots and provide the fundamental technologies for innovation in the relevant industries.
随着人工智能科技的迅猛发展,服务机器人正逐渐成为全球化的新兴产业之一。其中,主动理解用户复杂行为和意图,是高品质服务机器人应具备的核心功能。然而,在非结构工作环境中,人体行为的多样性、数据与运算资源的的有限性,很大程度上制约了服务机器人对用户行为的判断能力。为此,本项目拟借鉴人类的视觉感知与认知特点,设计新型的深度学习模型与训练框架,展开面向服务机器人的复杂人体行为识别关键技术研究。首先,我们设计多任务辅助、多层次注意、多模态融合的新型深度学习序列模型,实现复杂行为的时空动态建模。第二,我们研发数据与计算资源均受限条件下的训练方案。通过知识迁移与模型压缩的新型耦合设计,提高行为识别深度学习模型在小样本数据、轻量级运算应用场合的鲁棒性与准确性。最后,我们通过服务机器人平台进行多模态数据收集和技术验证。本项目的实施将有效提升服务机器人的智能化水平,为相关产业的技术创新奠定良好基础。
在开放世界中,人体行为的多样性、数据与运算资源的有限性,很大程度上制约了服务机器人对用户行为的判断能力。经过全体成员共同努力,项目组取得以下成果:..(1)在模型方法上,本项目重点围绕复杂环境下的视频目标理解展开研究,构建一系列基础视频表征模型和重要上下文理解模型(姿态估计与重建、物体检测与场景理解)。以此为基础,形成一系列具有可解释性的鲁棒目标行为解析方法。..(2)在技术方案上,本项目分别针对运算资源有限和数据资源有限两个方面展开研究。在运算资源有限的条件下,构建一系列深度模型压缩与知识迁移技术。在数据资源有限的条件下,设计一系列基于小样本学习、噪声标签监督、自监督学习等新型技术。有效提升模型在资源受限条件下的泛化性。..(3)在应用上,本项目收集视频数据库,在智能机器人、管道机器人等重要应用场景展开验证。..另外,自项目开展以来,项目组严格执行研究计划,顺利完成本项目各项指标要求:..(1)发表高水平论文24篇(SCI 论文7 篇,EI 论文17篇),其中包括国际一流期刊和国际一流会议论文21篇(IEEE Transactions on Image Processing:5篇,CVPR:7 篇,ICCV:1篇,ECCV:2篇,AAAI:3篇,ICLR:2篇,ACMMM:1篇)。..(2)申请发明专利15项。..(3)培养或联合培养研究生3名,博士生2名。..(4)相关成果获得广东省技术发明一等奖、吴文俊人工智能科技进步二等奖、深圳市科技进步奖二等奖、机械工业科学技术三等奖。..(5)相关技术获得ActivityNet2022视频理解国际竞赛的TinyActions低分辨行为识别赛道冠军,MVP三维点云理解国际竞赛的点云补全赛道亚军。..(6)通过本项目的科研,项目负责人入选中国科学院青年促进会成员。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
涡度相关技术及其在陆地生态系统通量研究中的应用
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
面向视频大数据的人体行为理解关键技术研究
面向服务机器人的交互式人体行为识别与建模研究
面向服务机器人的智能空间关键技术研究
面向服务机器人的移动视角行为理解和人机交互多模算法研究