The segregation and reconstruction of mixed acoustic signal is the basis of perception and understanding of human auditory system, and also the key of robust speech processing. The monaural speech segregation based on CASA (Computational Auditory Scene Analysis) relies greatly on the accurate pitch estimation,which can’t be utilized for unvoiced speech segregation. Therefore, based on the spatial perception mechanism of human hearing, we propose the binaural speech segregation framework and speech recognition algorithm based on spatial cues. The research work includes: 1) simultaneous organization of Time-Frequency segments based on iterative structure is proposed. 2) Sequential organization is analyzed in HMM-DNN framework, when DBN-DNN is utilized as generative probability model of segregation cues. 3) Target speech is reconstructed based on Ratio Masking and speech recognition is analyzed based on probability estimation of missing TF segments. The project will realize the architecture of binaural speech segregation and speech recognition based on spatial cues, which will provide new research ideas and direction for robust speech processing.
混合声信号的分离和重构是人耳听觉系统感知和理解的基础,也是鲁棒语音信号处理的关键。针对基于听觉场景分析的单通路语音分离过分依赖基音周期估计准确性、无法分离清音等不足,本项目基于人耳听觉的空间感知机制,研究基于空间线索的双耳语音分离和识别中分离线索模型、分离机制等关键问题,具体内容包括:1)研究基于迭代结构的感知单元同时组织过程;2)将深度神经网络DNN作为分离线索的生成概率模型,研究基于隐马尔科夫模型HMM-DNN框架下的感知单元序列组织过程;3)针对语音识别,研究基于浮值掩蔽重构和丢失感知单元的分离目标语音声学模型优化问题。本项目将给出基于空间线索的双耳语音分离框架和识别算法,研究成果为鲁棒语音处理提供了新的研究思路和方向。
混合声信号的分离和重构是人耳听觉系统感知和理解的基础,本项目基于听觉的空间感知机制,研究基于空间线索的双耳语音分离和识别关键问题,具体包括:模拟人耳的时频分析特性,将子带声信号的互相关函数和耳间强度差作为空间线索,建立子带深度神经网络DNN(Deep Neural Network),基于子带融合,实现目标声源定位;基于空间线索的时间相关性,将长短时记忆网络LSTM(Long Short Term Memory)作为分类器,连续帧的空间线索作为LSTM前、后时间节点的序列信息,在低信噪比和强混响下实现空间方位估计;基于空间线索的子带相关性,实现基于深度卷积残差网络的空间方位估计,卷积网络的参数共享减少了模型规模,同时其残差结构降低了模型训练复杂度,对混响、信噪比有更好的泛化能力;在子带内将语音分离作为有监督的模式识别问题,利用空间特征和频谱特征,将目标声源的理想二值掩膜和理想比值掩膜作为训练目标,得到基于DNN的双耳语音分离结构,提升语音分离的感知质量;根据空间线索的时序性,利用双向LSTM网络对连续时频单元的空间线索建模,用于估计目标声源的掩膜,进行语音分离,分离语音感知质量优于DNN网络;将空间方位估计与语音分离相融合,方位信息作为分离的线索,实现不同声源的重构,重构后的声信号重新估计方位,形成迭代结构,提升分离语音的感知质量;利用连续时频单元的多分辨率耳蜗谱图的拼接特征参数,训练基于目标声源掩膜的DNN网络,进一步提升分离语音的感知质量和可懂度;基于生成对抗网络在图像增强上的应用,将语音的二维语谱图作为标签,提出基于生成对抗网络的语谱图增强算法,大幅提升语音感知质量;将空间分离后目标语音的美尔滤波参数和Gammatone滤波子带参数作为识别特征,利用边缘概率估计和数据估计方法,实现分离语音的识别,说话人干扰下的识别性能有显著提升。本项目研究工作基于空间信息的语音分离,提高了强混响、强噪声、多说话人等复杂声学环境下,目标声源的感知质量和可懂度,为提高语音信号处理系统鲁棒性提供了新的途径。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
粗颗粒土的静止土压力系数非线性分析与计算方法
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
中国参与全球价值链的环境效应分析
基于听觉感知模型的说话人识别和语音语种识别新方法研究
双耳交互计算模型与空间听觉研究
中国人群双耳听觉响度感知特征研究
基于听觉时间机理的语音识别新参数的研究