Applications of service robot to human's daily life have brought new challenges for human robot interaction. Traditional perception methods, e.g. vision, audition and depth, play certain roles of communication in the process of human robot interaction. However, all these methods show limited power to tackle with illumination changes, partial occlusion, noise, speech reverberation, motion ambiguity and other problems in complex interactive scenes. To ensure the practical usage of intelligent service robot, it has been a key topic to take full complementary advantages of multiple perception methods, aiming at the realization of multimodal human robot interaction which involves vision, audition, depth and other perception methods. Facing the complex environments in the process of detecting, tracking and understanding human targets, this project builds a novel perception-motion-configuration space (PMC space), which realizes the audio-vision fusion method and multiple clues-based multimudual human robot interaction method. Meanwhile, different perceptual information fusion strategies are developed to keep the efficiency of data transfer mechanism facing the problem of limited computational cost. The advantages of the proposed method are four-fold. First, the vision perception modual shows robustness to the complex illumination conditions and partial occlusions. Second, the power of human robot interaction through audition perception suffers less from the effect of noise and speech reverberation. Third, the proposed method reduces effects of relative motion and inter-similarty between human targets on multimodual human robot interaction, which contains moduals such as vision, audio and depth. The effectiveness of the above methods is verified by human robot interaction experiments on a real service robot.
服务机器人走进人类的日常生活对人机交互提出了新的挑战。视觉、听觉、深度等多种感知途径在人机交互过程中都可以发挥一定的沟通作用,但面对照明和遮挡、噪声和混响、运动和相似等复杂交互场景,都存在一定的局限性。充分发挥不同感知途径的特定优势和多种感知途径之间的互补性,实现视觉、听觉和深度等感知的多模态人机交互,是服务机器人智能化、实用化面临的一个重要课题。本项目针对服务机器人对交互对象的人体目标检测、定位跟踪和行为识别理解过程中面临的复杂环境,建立一种新的感知运动位姿态空间,实现了视听融合方法和多线索融合的多模态人机交互方法,通过一系列的感知融合机制实现有限的计算资源在不同感知数据处理之间的有效转移,最大程度地降低复杂照明和遮挡对视觉感知的不利影响,降低噪声和混响对听觉交互能力的干扰,降低相对运动和目标相似性对视听、深度等多模态人机交互的影响。通过服务机器人的人机交互实验检验上述方法的有效性。
视觉、听觉、深度等多种感知途径是实现服务机器人与人类自然、友好交互的重要途径。然而,由于现实交互场景的复杂性,如光照变化、遮挡、噪声、混响、运动模糊、场景相似等,不同感知模态都存在一定的局限性。.本项目围绕服务机器人对交互对象的人体目标检测、定位跟踪和行为识别问题,开展视觉、听觉、深度感知融合方法和多模态人机交互关键技术的研究。针对多模态人机交互的“感知运动位姿空间”统一建模问题,提出了基于有监督学习的视觉里程计和视觉-IMU里程计建模方法、基于无监督的深度以及位姿估计、以及基于区域的混合采样方法和概率增强策略;针对视觉听觉融合的复杂交互场景人体目标定位与跟踪问题,提出了一种基于音视频模态融合的3D粒子框架、一种两层的音视频粒子滤波器,以及一种基于孪生度量网络的两层音视频融合粒子滤波器;针对视听融合的交互对象行为识别与理解问题,提出了视觉听觉感知特征的融合策略和基于几何与外观时空特征的唇语识别方法;针对视听与深度感知融合的交互对象唇部运动检测问题,提出了基于改进的三正交平面局部二进制模式、基于LSTM的听觉特征提取方法、以及基于多模态融合的视觉、听觉以及深度特征信息对齐方法;针对视听与深度感知融合的交互对象运动检测问题,提出基于深度上下文描述子的手势识别算法、深度不变-密度恒常映射的人体行为识别算法、视听与深度感知融合的层级特征组合机制以及场景自适应的特征选择。.为提高移动机器人多模态人机交互系统性能提供理论方法和实验平台,本项目建立了人体运动目标检测数据库(PKU-SAMOT)、中文孤立词视听语音数据库(PKU-AV2),并搭建人工头音视频融合平台、麦克风阵列声源定位平台,以及新一代智能导购无人便利店实验场景。本项目所提的方法在自建数据库及开源数据库上,均获得较好性能。相关工作发表在国际主流期刊与会议上。
{{i.achievement_title}}
数据更新时间:2023-05-31
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
面向云工作流安全的任务调度方法
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
服务机器人灵巧操作的多模态感知融合与人机交互
面向人机交互的服务机器人感知和交互方法研究
面向多网融合的智能用电感知互动服务关键技术
面向智能制造的多通道数据采集、感知、融合与服务方法研究