The robustness of speech processing system is still an important and difficult research filed. Psychoacoustic and Physiological acoustics research indicate that the binaural system of human hearing plays a major role in improving speech intelligibility. The primary goal of this project is to study the binaural perception model of human hearing and to propose the computational model of binaural interaction to improve the robustness of speech signal processing system in the noisy and reverberant environment. First, binaural cross correlation function is extracted as the localization cues for establishing sound source localization model. Second, inhibition model based on crossed fed-forward and fed-backward structure is proposed to simulate the precedence effect. Third, binaural model based on cross correlation is collaborated with equalization-cancellation model. At last, the sub-band SNR (signal-Noise Ratio) estimation based on covariance matrix is deduced to select the frequency adaptively for localization cues computation. This project will realize the target speech detection and analysis based on localization cues, and establish the framework of binaural speech signal processing. This work will improve the robustness of current speech signal processing system in real application.
复杂声学环境下语音信号处理的鲁棒性研究一直是重点和难点。听觉生理学和心理学研究表明人的双耳结构决定了听觉系统的鲁棒性。因此本项目基于双耳声信号处理框架,研究听觉神经对双耳声信号的交互、融合处理机制,提出相应计算模型,具体包括:研究基于子带互相关函数的空间线索,建立空间方位识别模型;建立前、后向结构的反射声抑制模型,融合均衡抵消处理过程,建立听觉系统优先效应的计算模型,实现混响环境下的空间方位识别;基于协方差矩阵实现短时子带噪声估计,在定位模型中将子带信噪比作为可信度度量,实现子带自适应选择。本项目模拟人耳听觉系统处理结构,给出完整的双耳交互计算模型,实现基于空间线索的目标语音检测和分析,提高现有语音信号处理系统对复杂声学环境的鲁棒性,为语音信号处理系统的鲁棒性研究提供新的研究框架。
复杂声学环境下语音信号处理系统的鲁棒性研究一直是重点和难点。听觉生理学和心理学研究表明人的双耳结构决定了听觉系统的鲁棒性。因此本项目基于双耳声信号处理框架,研究双耳的空间感知机制,实现基于空间线索的目标声源检测和分离。具体的研究内容包括:在已有的基于耳间时间差ITD(Inter-aural Time Difference)定位基础上,综合耳间强度差IID(Inter-aural Intensity Difference)、双耳互相关函数,模拟听觉神经的多参数融合处理机制,研究了基于ITD、IID、互相关函数的深度神经网络DNN(Deep Neural Network)定位机制,挖掘各声学特征参数间的内在结构信息,模拟听觉系统的混响抑制机制,改善混响环境下的双耳定位性能;基于听觉场景分析中,听觉系统对不同声源目标信号的分离和重构机制,提出了基于定位-分离重构迭代结构的双耳声源定位算法,进一步改善复杂声学环境下的双耳声源定位和分离性能;基于压缩感知原理,提出了基于双耳声信号的计算模型,解决了混响环境下的鲁棒双耳声源定位和基于声源方位信息的目标声源分离问题;模拟人耳听觉系统的频率选择性,基于协方差矩阵,实现子带噪声估计,在定位模型中将子带信噪比作为可信度度量,实现子带频率的自适应选择,提高了混响和噪声环境下双耳声源定位的鲁棒性;同时研究了低信噪比环境下的端点检测算法和多环境模型矢量泰勒级数VTS(Vector Taylor Series)语音识别算法,作为双耳空间感知的前端和后端处理模块,提高双耳声源定位的鲁棒性,以及为基于空间感知的语音信号处理研究提供基础。最后,课题组基于声学人工头和多通道采集设备,搭建了硬件测试平台,双耳空间感知算法的验证提供了实验条件。课题组开展的研究工作实现了混响、噪声复杂声学环境下,基于双耳声信号的目标声源空间感知和识别,为提高语音信号处理系统鲁棒性提供了新的途径,研究成果可广泛用于语音识别、说话人识别、语音通信、机器人听觉等领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
双耳空间听觉模型与虚拟环绕声系统的研究
基于参数优化具有简单认知能力的双耳听觉计算模型
复杂声音场景下的双耳听觉模型研究
双耳听觉的脑干神经环路研究