基于回归神经网络的语音分离关键问题研究

基本信息
批准号:61671422
项目类别:面上项目
资助金额:58.00
负责人:杜俊
学科分类:
依托单位:中国科学技术大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:戴礼荣,高天,屠彦辉,文仕学,范娜娜,孙磊
关键词:
单通道混合语音分离人工神经网络语音增强麦克风阵列语音分离
结项摘要

With the emergence of big data and internet plus era, speech separation is one of the key techniques to make the speech interaction application practical in real complicated scenarios. But the traditional speech separation technique especially the single microphone based algorithm, can not achieve the generality requirement due to the inherent imperfection in model assumptions. Recently the rising of deep learning with big data provides a very promising direction for the speech separation area, which can well handle the failure cases of the conventional approaches. This project will conduct the research to aim at solving the model generalization and complexity problems in the regression neural network based speech separation, including the construction of the noise and speech data, the design and optimization of regression neural network, and the integration with the microphone array techniques, etc. Also the customized applications will be considered and hopefully we can make the breakthrough of single-channel and multi-channel speech separation in practical aspect. This project not only has the great research and practical values for speech communication, but also the research achievements will make the significant impact on the robustness of the application systems based on speech recognition, language recognition, and speaker recognition, etc.

随着大数据和互联网+时代的到来,语音分离是智能语音交互应用在实际复杂场景下实用化的关键技术之一。但传统的语音分离技术特别是单麦克风情况下,由于模型假设等先天性的缺陷,在通用性方面很难达到实用化门槛。而近年来随着深度学习技术的兴起,结合大数据的语音分离方法提供了一个非常有前景的新方向,在传统方法不能较好处理的一些场景下取得了很好的效果。因此本项目将围绕基于回归神经网络的语音分离方法在实用化时面临的模型推广性和复杂度等问题展开研究,包括噪声和语音数据的构造、回归神经网络的设计和优化以及和麦克风阵列技术的结合等;并考虑各种定制化应用,以期能够在单通道和多通道语音分离的实用化方面取得关键性突破。本项目不仅对语音通讯领域具有巨大的研究和实用价值,而且其研究成果还将对提高语音识别、语种识别、说话人识别等各种语音应用系统的鲁棒性有着重要意义。

项目摘要

语音分离是未来智能语音交互应用在实际复杂场景下实用化的关键技术之一。本项目围绕基于回归神经网络的语音分离方法在实用化时面临的模型推广性和复杂度等问题展开研究,研究内容包括三部分:1. 构造紧致和覆盖度高的训练数据,融合多源信息的特征提取,设计面向语音分离的神经网络新结构和优化方法,实现单通道语音分离技术具有更好的推广性和更小的模型复杂度;2. 结合基于回归神经网络的单通道语音分离和麦克风阵列技术,设计多通道语音分离方案,实现二者的优势互补;3.结合特定的应用场景进行定制,加速基于回归神经网络的语音分离技术的实用化。本项目最终在单通道和多通道语音分离的实用化方面取得一系列研究成果。项目期间共发表国际期刊和会议论文30多篇,其中项目负责人作为唯一通讯作者在2015年发表的IEEE-ACM TASLP期刊论文“A regression approach to speech enhancement based on deep neural networks”获得2018年信号处理学会最佳论文奖。此外,基于项目的研究成果,项目负责人带领团队获得2018年国际多通道语音识别CHiME-5评测全部三项任务冠军、2020年国际多通道语音识别CHiME-6评测两项任务冠军、2020年DCASE国际评测声音事件定位与检测任务冠军。本项目的部分研究成果也在科大讯飞的相关产品中进行落地应用。总体来说,本项目研究成果对学术界最经典的“鸡尾酒会问题“的探索起到了重要的推动作用,在未来不仅对语音通讯领域具有较大的研究和实用价值,而且还将对提高语音识别、语种识别、说话人识别等各种语音应用系统的鲁棒性有着重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

DOI:10.7498/aps.67.20171903
发表时间:2018
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

基于混合优化方法的大口径主镜设计

基于混合优化方法的大口径主镜设计

DOI:10.3788/AOS202040.2212001
发表时间:2020

杜俊的其他基金

批准号:21371006
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:41501109
批准年份:2015
资助金额:24.00
项目类别:青年科学基金项目
批准号:61305002
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于空间听觉感知的双耳语音分离和识别关键问题研究

批准号:61571106
批准年份:2015
负责人:周琳
学科分类:F0117
资助金额:57.00
项目类别:面上项目
2

自回归维纳滤波语音增强方法研究

批准号:61471014
批准年份:2014
负责人:鲍长春
学科分类:F0117
资助金额:80.00
项目类别:面上项目
3

用神经网络研究基于听觉系统模型的语音识别

批准号:68905001
批准年份:1989
负责人:高雨青
学科分类:F0605
资助金额:3.50
项目类别:青年科学基金项目
4

基于语音分析的心理生理计算若干关键问题研究

批准号:61372146
批准年份:2013
负责人:赵鹤鸣
学科分类:F0111
资助金额:84.00
项目类别:面上项目