面向语音表示及分离的结构化深度学习研究

基本信息
批准号:61471394
项目类别:面上项目
资助金额:80.00
负责人:张雄伟
学科分类:
依托单位:中国人民解放军陆军工程大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:杨吉斌,孙蒙,吴海佳,曹铁勇,邹霞,闵刚,贾冲,陈栩杉,郑云飞
关键词:
深度学习马尔科夫蒙特卡洛抽样结构化学习语音分离语音表示
结项摘要

There are a lot of variations in speech signals, such as different speakers, various emotions, miscellaneous background noise and reverberations. However, the hearing system of human is able to be adapted to those variations in a smart way by filtering out irrelevant noise towards useful target information. Deep learning simulates the information processing in human brain. This provides us a novel approach to speech representation and seperation. In this project, deep learning is deployed and improved towards better solutions of speech representation and separation. The key steps are to investigate structured deep belief networks, to determine the network topology adaptively, to overcome the high computational complexity and to alleviate the non-convexity in optimization. By separating different speech sources and noise, better acoustic models can be obtained for the subsequent speech processing tasks.

语音信号存在着大量的可变因素,例如不同说话人、说话语气、背景噪声、其他说话人的声音、回声等。人类的听觉感知系统可以轻易过滤掉干扰信息,并提取出有用信息,对语音的表现形式和环境的变化具有良好的适应性。深度学习模拟人脑对感知信息的处理过程,该方法为语音的表示和分离提供了新的思路。本课题以深度学习的理论和算法为基础,针对语音信号的表示和分离问题,通过研究和改进结构化深度信念网络模型,突破训练过程中的模型拓扑结构不确定、运算复杂度高、优化问题非凸等关键难点,获取语音信号更好的层次化表示,实现不同信源以及噪声的分离,为后续语音处理任务提供更好的前端模型。

项目摘要

为解决语音信号的表示和分离问题,本项目研究了深度神经网络(Deep Neural Network,DNN)、非负矩阵分解(Nonnegative Matrix Factorization, NMF)、深度循环神经网络(Deep Recurrent Neural Network, DRNN)、隐马尔科夫模型(Hidden Markov Model, HMM)和深度自动编码机(Deep Auto-Encoder, DAE)的语音表示分离新方法。设计新的组合模型,克服了马尔科夫蒙特卡洛抽样方法效率不高、计算量过大的问题。将“稀疏低秩分解”模型与组合模型的基本框架相整合,提升了模式识别算法在提取结构化特征时的鲁棒性并缓解了语音增强算法对于大规模噪声训练样本数据集的迫切需求;使用卷积非负基函数以及隐马尔科夫模型来对语音信号的时序结构特征进行了建模和表示;提出了一系列基于掩蔽深度神经网络的语音增强算法,所提算法性能指标明显优于非负矩阵分解方法和常见的基于DNN的方法。提出基于深度自动编码机的低速率语音编码方案,显著降低了特征矢量量化误差对DAE重构语音质量的影响。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

张雄伟的其他基金

相似国自然基金

1

异质噪声场景语音识别中的结构化深度学习研究

批准号:61603252
批准年份:2016
负责人:钱彦旻
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
2

面向数据表示的深度稀疏保持学习

批准号:61300154
批准年份:2013
负责人:乔立山
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目
3

基于结构化稀疏表示与深度学习的图像增强及分类技术研究

批准号:61772374
批准年份:2017
负责人:王迪
学科分类:F0210
资助金额:61.00
项目类别:面上项目
4

面向特征提取的深度鉴别稀疏表示学习方法研究

批准号:61806098
批准年份:2018
负责人:常合友
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目