基于深度学习的单通道语音混响消除技术研究

基本信息
批准号:61671381
项目类别:面上项目
资助金额:58.00
负责人:张晓雷
学科分类:
依托单位:西北工业大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:隆弢,王超,聂玮奇,鲁文霞,赵淑洁,赵旭东,杨贝贝
关键词:
抗噪语音信号处理噪声信号深度学习单通道的混响消除技术
结项摘要

Speech reverberation degrades speech quality and intelligibility, which may affect some important speech applications, e.g. intelligent speech signal processing. Because reverberation is produced by complicated real-world factors, dereverberation is an important and difficult task in speech signal processing. Existing dreverberation techniques cannot deal with the nonlinear transforms of reverberated speech. They also have a heavy computational load, and cannot fully utilize prior information. These difficulties may be solved well by deep neural networks with large-scale training, which needs a further investigation. Two core problems that are important for the practical use of the deep neural network based speech dereverbertation are (i) discriminability in matching environment, and (ii) generalization ability in mismatching environment. We have proposed new techniques for the two core problems in other noisy speech processing tasks, such as speech activity detection, speech enhancement and speech separation, but speech dereverberation still has challenges, which may be further dealt with by new techniques, including recurrent neural networks, new optimization objectives that consider time delay, large-scale noise-independent training, and blind adaptive filtering. This proposal may provide new schemes for the two core problems of the deep learning based monaural speech dereverberation. It may also trigger new directions for the technique combination of deep learning and blind signal processing.

混响会使语音的质量和可懂度下降,给电话会议、语音的智能信息处理等应用造成困难。由于混响产生原因的复杂性,混响消除一直是信号处理的难点和重点。目前的混响消除技术无法拟合混响的非线性变化部分,且存在计算量大、不能充分利用先验知识等问题。大规模有监督训练的深度神经网络是解决这些问题的潜在方法之一,但该方法尚未得到深入研究。将该方法推向实用需要提高深度神经网络在训练和测试匹配环境下的极限性能,以及提高其在未知测试环境下的泛化性能。我们在基于深度学习的语音检测、增强和分离的研究中对上述两个难题提出过解决方案,但是消除混响这种频域的乘性噪声仍然面临新的挑战。针对该挑战,我们将进一步提出集群递归深度网络、考虑了混响时延的优化目标、大规模混响类型无关训练等新算法,并结合自适应盲信号处理等方法。本课题将为解决基于深度学习的混响消除技术的两个难题提供方案,并为有监督深度学习和盲信号处理的融合提供新思路。

项目摘要

混响会使语音的质量和可懂度下降,给电话会议、语音的智能信息处理等应用造成困难。由于混响产生原因的复杂性,混响消除一直是信号处理的难点和重点。目前的混响消除技术无法拟合混响的非线性变化部分,且存在计算量大、不能充分利用先验知识等问题。大规模有监督训练的深度神经网络是解决这些问题的潜在方法之一,但该方法尚未得到深入研究。针对该问题,本项目提出了混响环境下直接对相位做增强的深度学习降噪算法、损失敏感性学习的语音分离算法;提出了融合空间特征的多通道深度学习波束形成方法,并进一步提出了降低远场强混响环境发生概率的基于自组织阵列的深度波束形成语音增强算法;在噪声和混响环境下分析对比了多种说话人聚类算法的有效性,并进一步提出了优化部分ROC曲线下面积的方法提升噪声环境下的说话人识别性能;提出了无监督域自适应方法用于噪声环境下语音分析和音频场景分析,并进一步提出了基于最小体积约束的盲语音分离方法;提出了语音增强与语音检测相结合的多任务语音分离方法;提出多层自举网络的非线性降维方法并应用于语音分离、说话人分割聚类、音频场景分析等任务。上述研究成果显著提升了混响环境下的语音增强、语音分离、声纹识别性能,促进了基于深度学习的去混响研究,部分研究成果已经可以步入实际使用,具有一定的学术价值和工业价值。研究成果形成论文18篇,其中中文期刊论文1篇、SCI检索的论文5篇、EI检索的会议论文13篇,申请国家/国际发明专利6项,获得权威国际期刊最佳论文奖1项、国际会议最佳论文奖1项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020

张晓雷的其他基金

相似国自然基金

1

基于深度学习的蒙古语语音问答技术研究

批准号:61773224
批准年份:2017
负责人:高光来
学科分类:F0605
资助金额:65.00
项目类别:面上项目
2

噪声环境下基于深度学习的低速率语音编码技术研究

批准号:61701535
批准年份:2017
负责人:闵刚
学科分类:F0108
资助金额:21.00
项目类别:青年科学基金项目
3

基于非线性语音谱分析的单通道语音增强研究

批准号:61302126
批准年份:2013
负责人:王杰
学科分类:F0117
资助金额:23.00
项目类别:青年科学基金项目
4

基于深度学习的汉藏双语语音合成的研究

批准号:11664036
批准年份:2016
负责人:杨鸿武
学科分类:A2305
资助金额:42.00
项目类别:地区科学基金项目