基于计算听觉场景分析的鲁棒语音识别前端处理系统研究

基本信息
批准号:61403370
项目类别:青年科学基金项目
资助金额:26.00
负责人:梁山
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:杨占磊,江巍,陈明明,雪巍,聂帅
关键词:
计算听觉场景分析鲁棒语音识别噪音残留语音分离语音扭曲
结项摘要

The conventional computational auditory scene analysis (CASA) based monaural speech separation methods usually result in huge speech-distortion. Since speech recognition system is very sensitive to the speech-distortion, the research work focus on the problem of how suppressing speech-distortion in this study. The proposed specific solutions include: 1) Constructing a local correlation model to represent the energy distribution of adjacent harmonics. On the basis of this model, some missed harmonics in the original separated speech are regenerated. 2) On the analysis of speech-distortion and noise residual, using an adaptive noise control factor estimator to achieve the best trade-off between the two evaluation measures. 3) According to the signals collected by the vice-microphone, designing a two-channel filter in time domain to suppress the local error in speech spectrum estimation. The sound source azimuth information can be considered as a supplement of the traditional monaural separation cues. The expected research achievements of this project provide pre-processing system of robust speech recognition and improve the robustness of speech recognition system to the noise. It has important meaning on designing a simple and convenient human-computer interaction interface and improving the intelligence level of machine.

现有的基于计算听觉场景分析的单通道语音分离算法通常会导致大量的语音扭曲。由于语音识别系统对语音扭曲非常敏感,本项研究从如何抑制语音扭曲这一问题展开工作。具体的解决方案包括:1)通过对相邻谐波能量分布的相关性进行建模,并根据该模型对原分离语音中的谐波缺失成分进行恢复。2)基于语音扭曲和噪音残留的分析,采用自适应噪音容许因子的方式,实现这两个指标的最佳平衡。3)通过引入辅麦克语音信息,设计一组直接在时域处理的双通道滤波器来抑制语音谱局部估计误差。双通道声源方位信息的引入也是对传统单通道分离线索的补充和完善。本课题的预期研究成果可以作为鲁棒语音识别的预处理系统,提高语音识别系统对噪音的鲁棒性。对设计简单、便捷的人机交互界面,提高计算机的智能化水平有着重要意义。

项目摘要

主要进展和成果包括:提出了基于非负矩阵分解的谐波结构约束方法,并与基于深度神经网络的CASA算法相融合。非负矩阵分解可以有效表达语音尤其是谐波结构的关联信息,我们在深度神经网络增加了一个隐层用以表达NMF对各个基向量的加权权重,学习目标是基于维纳滤波理论的衰减因子。本项工作,由于增加了对谐波结构成分的约束,所以从分离结果上来讲本项工作在信噪比、客观感知质量、语音失真度各项指标都显著优于原基于深度神经网络的CASA模型,尤其是对集外噪声,有着更好的泛化性能。.提出了一个二阶段基于维纳滤波理论的理想浮值掩蔽(Ideal ratio mask, IRM)估计方法和跨时频表达域的IRM估计方法。我们之所以采用IRM作为估计目标,是因为这一目标在CASA通用的听觉谱上由维纳滤波理论所推导出来,语音失真更小。采用深度层叠网络,基于傅里叶变换的语音谱和听觉谱分别估计IRM并相互融合更新最终的掩蔽结果,这一跨时频表达域的协作处理框架,有效避免了局部时频点估计误差过大,在信噪比指标和感知质量指标上都优于现有算法。.鉴于声源方位信息对双通道语音分离有重要作用,而传统的方法在有噪音的场景下声源方位信息估计效果会迅速下降。我们提出了一个噪音鲁棒的声源定位算法,该算法基于加权双谱信息因此对背景噪声鲁棒;该声源方位信息作为CASA算法的重要线索,用来进行语音、背景噪声主导时频单元的分类。根据该分类结果,设计了一组加权递推最小二乘算法,应用在双通道系统中。该算法可以抑制背景噪声,而不会引入过多的语音扭曲,根据华为提供的真实带噪数据测试表明,不论是语音识别率还是语音感知质量都有显著提升。 .本项研究结果得到大量的实验验证,在本领域权威会议Interspeech、ICASSP发表论文4篇,得到了国内外同行的一致认可,有重要的学术价值。部分技术得到了工业界的广泛关注,有很大的实用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

相似国自然基金

1

听觉场景分析及其噪声环境下的语音识别

批准号:60272044
批准年份:2002
负责人:吴镇扬
学科分类:F0111
资助金额:20.00
项目类别:面上项目
2

基于声学场景先验的远讲语音识别前端研究

批准号:61601453
批准年份:2016
负责人:王晓飞
学科分类:F0117
资助金额:22.00
项目类别:青年科学基金项目
3

基于语音增强的鲁棒性语音识别方法研究

批准号:62001446
批准年份:2020
负责人:屠彦辉
学科分类:F0117
资助金额:16.00
项目类别:青年科学基金项目
4

基于压缩感知的鲁棒性语音情感识别研究

批准号:61203257
批准年份:2012
负责人:张石清
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目