There are a lot of variations in speech signals, such as different speakers, various emotions, miscellaneous background noise and reverberations. However, the hearing system of human is able to be adapted to those variations in a smart way by filtering out irrelevant noise towards useful target information. Deep learning simulates the information processing in human brain. This provides us a novel approach to speech representation and seperation. In this project, deep learning is deployed and improved towards better solutions of speech representation and separation. The key steps are to investigate structured deep belief networks, to determine the network topology adaptively, to overcome the high computational complexity and to alleviate the non-convexity in optimization. By separating different speech sources and noise, better acoustic models can be obtained for the subsequent speech processing tasks.
语音信号存在着大量的可变因素,例如不同说话人、说话语气、背景噪声、其他说话人的声音、回声等。人类的听觉感知系统可以轻易过滤掉干扰信息,并提取出有用信息,对语音的表现形式和环境的变化具有良好的适应性。深度学习模拟人脑对感知信息的处理过程,该方法为语音的表示和分离提供了新的思路。本课题以深度学习的理论和算法为基础,针对语音信号的表示和分离问题,通过研究和改进结构化深度信念网络模型,突破训练过程中的模型拓扑结构不确定、运算复杂度高、优化问题非凸等关键难点,获取语音信号更好的层次化表示,实现不同信源以及噪声的分离,为后续语音处理任务提供更好的前端模型。
为解决语音信号的表示和分离问题,本项目研究了深度神经网络(Deep Neural Network,DNN)、非负矩阵分解(Nonnegative Matrix Factorization, NMF)、深度循环神经网络(Deep Recurrent Neural Network, DRNN)、隐马尔科夫模型(Hidden Markov Model, HMM)和深度自动编码机(Deep Auto-Encoder, DAE)的语音表示分离新方法。设计新的组合模型,克服了马尔科夫蒙特卡洛抽样方法效率不高、计算量过大的问题。将“稀疏低秩分解”模型与组合模型的基本框架相整合,提升了模式识别算法在提取结构化特征时的鲁棒性并缓解了语音增强算法对于大规模噪声训练样本数据集的迫切需求;使用卷积非负基函数以及隐马尔科夫模型来对语音信号的时序结构特征进行了建模和表示;提出了一系列基于掩蔽深度神经网络的语音增强算法,所提算法性能指标明显优于非负矩阵分解方法和常见的基于DNN的方法。提出基于深度自动编码机的低速率语音编码方案,显著降低了特征矢量量化误差对DAE重构语音质量的影响。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
异质噪声场景语音识别中的结构化深度学习研究
面向数据表示的深度稀疏保持学习
基于结构化稀疏表示与深度学习的图像增强及分类技术研究
面向特征提取的深度鉴别稀疏表示学习方法研究