面向服务机器人的视听感知融合与多模态人机交互关键技术

基本信息

批准号：U1613209

项目类别：联合基金项目

资助金额：260.00

负责人：刘宏

学科分类：

依托单位：北京大学深圳研究生院

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：刘轶,王文敏,蒋仕龙,杨戈,黄石磊,萧伟,丁润伟,刘梦源,庞程

关键词：

表情识别人机交互安全语音交互

结项摘要

Applications of service robot to human's daily life have brought new challenges for human robot interaction. Traditional perception methods, e.g. vision, audition and depth, play certain roles of communication in the process of human robot interaction. However, all these methods show limited power to tackle with illumination changes, partial occlusion, noise, speech reverberation, motion ambiguity and other problems in complex interactive scenes. To ensure the practical usage of intelligent service robot, it has been a key topic to take full complementary advantages of multiple perception methods, aiming at the realization of multimodal human robot interaction which involves vision, audition, depth and other perception methods. Facing the complex environments in the process of detecting, tracking and understanding human targets, this project builds a novel perception-motion-configuration space (PMC space), which realizes the audio-vision fusion method and multiple clues-based multimudual human robot interaction method. Meanwhile, different perceptual information fusion strategies are developed to keep the efficiency of data transfer mechanism facing the problem of limited computational cost. The advantages of the proposed method are four-fold. First, the vision perception modual shows robustness to the complex illumination conditions and partial occlusions. Second, the power of human robot interaction through audition perception suffers less from the effect of noise and speech reverberation. Third, the proposed method reduces effects of relative motion and inter-similarty between human targets on multimodual human robot interaction, which contains moduals such as vision, audio and depth. The effectiveness of the above methods is verified by human robot interaction experiments on a real service robot.

服务机器人走进人类的日常生活对人机交互提出了新的挑战。视觉、听觉、深度等多种感知途径在人机交互过程中都可以发挥一定的沟通作用，但面对照明和遮挡、噪声和混响、运动和相似等复杂交互场景，都存在一定的局限性。充分发挥不同感知途径的特定优势和多种感知途径之间的互补性，实现视觉、听觉和深度等感知的多模态人机交互，是服务机器人智能化、实用化面临的一个重要课题。本项目针对服务机器人对交互对象的人体目标检测、定位跟踪和行为识别理解过程中面临的复杂环境，建立一种新的感知运动位姿态空间，实现了视听融合方法和多线索融合的多模态人机交互方法，通过一系列的感知融合机制实现有限的计算资源在不同感知数据处理之间的有效转移，最大程度地降低复杂照明和遮挡对视觉感知的不利影响，降低噪声和混响对听觉交互能力的干扰，降低相对运动和目标相似性对视听、深度等多模态人机交互的影响。通过服务机器人的人机交互实验检验上述方法的有效性。

项目摘要

视觉、听觉、深度等多种感知途径是实现服务机器人与人类自然、友好交互的重要途径。然而，由于现实交互场景的复杂性，如光照变化、遮挡、噪声、混响、运动模糊、场景相似等，不同感知模态都存在一定的局限性。.本项目围绕服务机器人对交互对象的人体目标检测、定位跟踪和行为识别问题，开展视觉、听觉、深度感知融合方法和多模态人机交互关键技术的研究。针对多模态人机交互的“感知运动位姿空间”统一建模问题，提出了基于有监督学习的视觉里程计和视觉-IMU里程计建模方法、基于无监督的深度以及位姿估计、以及基于区域的混合采样方法和概率增强策略；针对视觉听觉融合的复杂交互场景人体目标定位与跟踪问题，提出了一种基于音视频模态融合的3D粒子框架、一种两层的音视频粒子滤波器，以及一种基于孪生度量网络的两层音视频融合粒子滤波器；针对视听融合的交互对象行为识别与理解问题，提出了视觉听觉感知特征的融合策略和基于几何与外观时空特征的唇语识别方法；针对视听与深度感知融合的交互对象唇部运动检测问题，提出了基于改进的三正交平面局部二进制模式、基于LSTM的听觉特征提取方法、以及基于多模态融合的视觉、听觉以及深度特征信息对齐方法；针对视听与深度感知融合的交互对象运动检测问题，提出基于深度上下文描述子的手势识别算法、深度不变-密度恒常映射的人体行为识别算法、视听与深度感知融合的层级特征组合机制以及场景自适应的特征选择。.为提高移动机器人多模态人机交互系统性能提供理论方法和实验平台，本项目建立了人体运动目标检测数据库（PKU-SAMOT）、中文孤立词视听语音数据库（PKU-AV2），并搭建人工头音视频融合平台、麦克风阵列声源定位平台，以及新一代智能导购无人便利店实验场景。本项目所提的方法在自建数据库及开源数据库上，均获得较好性能。相关工作发表在国际主流期刊与会议上。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.12005/orms.2019.0029

发表时间：2019

DOI：

发表时间：2017

DOI：10.13196/j.cims.2021.02.006

发表时间：2021

刘宏的其他基金

批准号：41602166

批准年份：2016

资助金额：22.00

项目类别：青年科学基金项目

批准号：51305335

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：50572052

批准年份：2005

资助金额：27.00

项目类别：面上项目

批准号：30640053

批准年份：2006

资助金额：10.00

项目类别：专项基金项目

批准号：51372142

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：41571010

批准年份：2015

资助金额：75.00

项目类别：面上项目

批准号：61370179

批准年份：2013

资助金额：75.00

项目类别：面上项目

批准号：51732007

批准年份：2017

资助金额：300.00

项目类别：重点项目

批准号：60675025

批准年份：2006

资助金额：26.00

项目类别：面上项目

批准号：81403288

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：81273258

批准年份：2012

资助金额：75.00

项目类别：面上项目

批准号：60875050

批准年份：2008

资助金额：32.00

项目类别：面上项目

批准号：51504242

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：61673030

批准年份：2016

资助金额：65.00

项目类别：面上项目

批准号：81760085

批准年份：2017

资助金额：32.00

项目类别：地区科学基金项目

批准号：21405014

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：69301002

批准年份：1993

资助金额：6.30

项目类别：青年科学基金项目

批准号：30772048

批准年份：2007

资助金额：28.00

项目类别：面上项目

批准号：30200316

批准年份：2002

资助金额：19.00

项目类别：青年科学基金项目

批准号：60275032

批准年份：2002

资助金额：20.00

项目类别：面上项目

批准号：71673313

批准年份：2016

资助金额：46.00

项目类别：面上项目

批准号：50435040

批准年份：2004

资助金额：150.00

项目类别：重点项目

批准号：51708381

批准年份：2017

资助金额：27.00

项目类别：青年科学基金项目

批准号：41371040

批准年份：2013

资助金额：90.00

项目类别：面上项目

批准号：71203244

批准年份：2012

资助金额：18.00

项目类别：青年科学基金项目

批准号：61340046

批准年份：2013

资助金额：18.00

项目类别：专项基金项目

批准号：60802067

批准年份：2008

资助金额：18.00

项目类别：青年科学基金项目

批准号：50872070

批准年份：2008

资助金额：35.00

项目类别：面上项目

相似国自然基金

服务机器人灵巧操作的多模态感知融合与人机交互

批准号：U1613212

批准年份：2016

负责人：刘华平

学科分类：F0306

资助金额：260.00

项目类别：联合基金项目

面向人机交互的服务机器人感知和交互方法研究

批准号：61573145

批准年份：2015

负责人：肖南峰

学科分类：F0604

资助金额：66.00

项目类别：面上项目

面向多网融合的智能用电感知互动服务关键技术

批准号：61672337

批准年份：2016

负责人：雷景生

学科分类：F0207

资助金额：62.00

项目类别：面上项目

面向智能制造的多通道数据采集、感知、融合与服务方法研究

批准号：51705256

批准年份：2017

负责人：柳林燕

学科分类：E0510

资助金额：24.00

项目类别：青年科学基金项目

面向服务机器人的视听感知融合与多模态人机交互关键技术

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于直觉模糊二元语义交互式群决策的技术创新项目选择

基于小波高阶统计量的数字图像来源取证方法

面向人机交互的数字孪生系统工业安全控制体系与关键技术

刘宏的其他基金

二叠-三叠纪之交特提斯浅海古海洋氧化—还原状态的时空波动：来自微生物岩的沉积记录

钛及钛合金激光焊接头BCC→HCP相变机制及对组织性能影响

化学法制备硫族化合物纳米薄膜和量子阱的研究

在小RNA水平上靶向性调控胰岛素分泌的研究

近红外光催化机理与纳米带表面异质结构全光谱太阳光催化材料

河流裂点迁移对洞穴发育过程影响研究：以中国云南宝牛角洞为例

基于相似图谱的脑MR图像海马体自动分割方法研究

基于光波导效应的内通光光催化及其工业水处理应用中的基础问题

面向人体目标实时跟踪的视觉注意转移机制研究

基于脑缺血动物模型的“肾通于脑”中医理论的生物学实质研究

Foxo1参与活化nTregs CD127表达上调的机制研究

人机互动环境下机器人实时运动规划研究

柔性孔径可变MOFs材料对通风瓦斯的吸附特性及其甲烷提浓研究

面向智能人机交互的移动机器人双耳声源定位研究

CD147介导的巨噬细胞自噬在血管紧张素II致动脉粥样硬化中的作用及机制研究

高效纸微流控分析芯片及其在POCT中的应用

传输均匀场的介质壁波导的研究及其应用

IL-15逆转CD4+CD25+Tregs低反应性的分子机制研究

牙周炎发生中脂氧合酶作用的研究

仿人机器人手局部自主操作的研究

我国农村基本养老保险制度对老年健康福利的政策绩效和作用机制研究

新一代仿人型残疾人假手系统及理论的研究

膜曝气生物膜反应器同步脱氮除硫的生物膜微观环境内生物过程机制研究

喀斯特包气带渗透过程及其水文地质含义研究

我国城镇居民基本医疗保险的经济学分析和绩效评估：基于微观数据的研究

基于麦克风阵列的移动机器人实时声源定位方法研究

复杂场景中数目变化的视觉多目标实时跟踪技术研究

表面异质结构对二氧化钛纳米带光电与气敏性能的调控机理及应用探索

相似国自然基金