用于声源定位的双耳优先效应计算模型

基本信息
批准号:11774380
项目类别:面上项目
资助金额:64.00
负责人:胡琦
学科分类:
依托单位:中国科学院声学研究所
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:马宁,王子腾,战鸽,姚鼎鼎
关键词:
优先效应声源定位混响
结项摘要

Sound source localization plays a crucial part in machine hearing, especially in robotics, hearing aid and security monitoring systems. However, current sound source localization algorithms are usually unreliable in real environments with reverberation. In contrast, the human auditory system has a mechanism to deal with reverberation during sound localization, a phenomena called the "precedence effect". A computational model of the precedence effect, which estimates the dominance of direct sound in time-frequency regions, can not only improve the robustness of sound source localization in reverberant environments, but also provide valuable insight to the research in sound source separation, acoustic event detection and other related areas. The benefit of existing computational models of the precedence effect is limited largely because they do not fully utilize auditory cues and prior knowledge of sound. In this project, the multi-scale normalized binaural cross correlation is proposed in order to reflect the dominance level of direct sound in a multiple time scale. First, auditory cues are grouped in the time-frequency domain to enhance regions that are dominant by direct sound. As a result, the proposed computational model is self-adaptive to environment variability. Second, machine learning techniques such as the random regression forest are used to exploit prior information of sound so that the long-term experience of auditory system is accumulated. The methodology of research is based on a binaural sound source localization system with the proposed precedence effect model and includes sound localization listening tests, and the research result will be generalized to microphone array applications.

声源定位是机器听觉的重要组成部分,在人工智能、助听器和安全监控等领域有很大需求。但是,现有声源定位方法缺乏足够的抗混响能力,不足以适应实际环境。而听觉具有完善的抗混响机制,表现为“优先效应”,对此建立计算模型,从而根据输入声信号,估计每个时频点上直达声占优势的程度,不仅能够直接提高声源定位的抗混响性能,而且对声源分离、声学事件检测等其它研究都有参考意义。现有计算模型之所以不能满足需求,主要因为听觉信息利用不够充分,以及对先验知识利用不足。为此,本研究提出多尺度归一化双耳互相关作为基本听觉线索,在多个层次上反映出直达声的相对优势;通过组合多个听觉线索,检测优先声集中的时频区域,实现对环境的快速适应;在此基础上,利用随机回归森林等机器学习方法,引入更多先验信息,实现对混响环境的长期经验积累。研究以双耳声源定位平台为基础,同时结合主观听觉测试进行模型优化,并推广到传声器阵列应用。

项目摘要

声源空间定位作为智能语音处理的重要研究课题之一,其被广泛应用于助听器和安全监控领域。现有的声源定位方法缺乏复杂环境下的鲁棒性,难以满足实际应用的需求。从听觉中借鉴其处理方法,对此构建相应模型,能够提高声源定位模型的稳健性。以模拟耳蜗非线性处理的计算模型(即 DRNL)为基础,分析了其水平定位所采用的听觉线索,发现模型的非线性压缩能够有效增加双耳时间差(ITD)的稳健性。将人耳中的条件反射作用引入DRNL模型,量化成一个可变的时间-频率参数MOC,进一步扩展了原模型的效果。MOC可以等效为在每个时频点上,根据直达声占优势的程度进行时频选带操作,进而实现抗噪和抗混响。MOC的变化受每时刻两耳输出能量的联合作用,以及下游双耳定位问题的指导。通过听觉心理物理学启发的MOC值更新方式,并同时拟合双耳听觉事件检测、ITD/ILD trading现象,扩展的双耳MOC-DRNL模型能够解释双耳优先效应。为了建模长时特性,并利用海量数据,模拟人耳的长期经验积累过程,构建了基于卷积神经网络(CNN)的双耳空间定位系统。通过将两个模型结合,以期能够有效模拟“自底向上”和“自上而下”的联合作用,更准确的解释优先效应现象。相关算法已部分推广至传声器阵列。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

DOI:10.7498/aps.67.20171903
发表时间:2018
2

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

感应不均匀介质的琼斯矩阵

感应不均匀介质的琼斯矩阵

DOI:10.11918/j.issn.0367-6234.201804052
发表时间:2019
5

动物响应亚磁场的生化和分子机制

动物响应亚磁场的生化和分子机制

DOI:10.13488/j.smhx.20190284
发表时间:2019

相似国自然基金

1

听力损失系统双耳声源定位模型研究

批准号:11504404
批准年份:2015
负责人:桑晋秋
学科分类:A2305
资助金额:22.00
项目类别:青年科学基金项目
2

混响环境下双耳声源定位的研究及应用

批准号:11674352
批准年份:2016
负责人:夏日升
学科分类:A2305
资助金额:64.00
项目类别:面上项目
3

面向智能人机交互的移动机器人双耳声源定位研究

批准号:61673030
批准年份:2016
负责人:刘宏
学科分类:F0309
资助金额:65.00
项目类别:面上项目
4

双耳交互计算模型与空间听觉研究

批准号:61201345
批准年份:2012
负责人:周琳
学科分类:F0117
资助金额:25.00
项目类别:青年科学基金项目