基于稀疏编码的语音特征增强方法研究

基本信息
批准号:61305001
项目类别:青年科学基金项目
资助金额:25.00
负责人:何勇军
学科分类:
依托单位:哈尔滨理工大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:王卫兵,孙晓华,谢怡宁,鲁颖欣,毕文冲,李佰洋,刘广明
关键词:
特征增强语音识别鲁棒性稀疏编码
结项摘要

Although current speech recognition systems can achieve high accuracy rates, their performances are degraded severely under noisy environments, which prevents speech recognition from real applications. To solve this problem, we study speech feature enhancement methods based on the elemental theory and technique of sparse coding to improve the noise robustness of speech recognition systems. Sparse coding represents signals under the rule of sparsity without stationarity assumption on noise, which is in according with the signal processing way of human beings and provids a new way to speech feature enhancement. This research focuses on the three basical aspects of sparse coding, namely dictioanry chosing, sparse decomposition and reconstrction. In dictionary chosing, we propose reasonable evaluation strategies and noise dictionary updating methods; in sparse decompostion, we make use of time relativity of speech and noise, and set the parameters of decompostion methods in a dynamical manner; in reconstruction, we focus on exploiting the prior knowledge of speech and noise and proposing dynamical reconstruction methods to remove wrong atoms. Finnaly, we study feature extraction based on the enhanced speech spectrum. This research has important theoretical significance and practical value in improving the noise robustness of speech processing systems and in promoting their real applications.

目前的语音识别系统在理想环境下具有较高的识别率,但当存在环境噪声时,其性能将急剧下降,这严重限制了语音识别技术的广泛应用。为了解决这一问题,本项目拟基于稀疏编码的基本理论和方法,研究语音特征增强的有效方法,以提高语音识别系统的噪声鲁棒性。稀疏编码在稀疏性准则下表示信号,不对噪声作平稳性假设,符合人类听觉系统处理信息的特点,为语音特征增强提供了新途径。本课题围绕稀疏编码中的字典构建、稀疏分解和信号重构这三个基本问题展开研究。在字典构建方面,研究合理的字典评价、优化和更新策略;在稀疏分解方面,研究考虑时间相关性的分解算法以及适应时变噪声的参数设置方法;在重构方面研究利用先验知识的动态重构算法和错误原子的动态屏蔽策略;最后研究基于增强频谱的语音特征提取方法。本项目的研究对提高语音识别系统的噪声鲁棒性,进而推动其走向现实应用具有重要的理论意义和实用价值。

项目摘要

提高语音识别系统对环境噪声的鲁棒性是将语音识别技术推向现实应用的关键一步。本研究立足于稀疏编码,根据语音信号自身的特点,系统地研究了对噪声鲁棒的语音特征提取方法。围绕稀疏编码中的原子字典的评价、稀疏分解和信号重构这三个方面进行了深入研究,提出了一系列有效的解决方法。在字典评价方面,从各个方面提出了字典的评价指标,能全面评价单字典和拼接字典在信号表示、去噪和分离等方面的性能。在字典优化方面,提出了两种以原子选择为途径,提升字典评价指标的优化算法。能有效去除字典中的冗余原子和有害原子。在稀疏分解方面,提出了自适应调节平衡因子的算法,使得分解算法能适应时变噪声。在信号重构方面,提出根据原子表示噪声的先验知识,动态调整用于重构的原子的方法,进一步减少了残留噪声。在特征提取方面,提出了基于重构信号提取鲁棒语音特征的新方法。所有算法在不同层级提升了语音识别系统的噪声鲁棒性。. 项目的各项任务都已圆满完成。发表了学术论文12篇,其中期刊论文10篇,会议论文2篇,SCI检索6篇,总影响因子超过10,EI检索10篇。获得省级科技进步二等奖1项,申请专利4项,获得软件著作权4项,发表专著1部,培养硕士研究生8名。项目成果有力推动了本领域的发展,拓宽了语音识别技术的应用领域,也为其他领域提供了借鉴。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022

何勇军的其他基金

批准号:61673142
批准年份:2016
资助金额:61.00
项目类别:面上项目

相似国自然基金

1

基于语音增强的鲁棒性语音识别方法研究

批准号:62001446
批准年份:2020
负责人:屠彦辉
学科分类:F0117
资助金额:16.00
项目类别:青年科学基金项目
2

基于稀疏语音声特征的分布式麦克风阵列测向机理及方法研究

批准号:61871447
批准年份:2018
负责人:刘志红
学科分类:F0111
资助金额:67.00
项目类别:面上项目
3

基于稀疏表示的视频编码方法研究

批准号:60702044
批准年份:2007
负责人:宋利
学科分类:F0108
资助金额:19.00
项目类别:青年科学基金项目
4

基于特征加密的抗压缩编码语音加密技术研究

批准号:61302107
批准年份:2013
负责人:丁琦
学科分类:F0108
资助金额:26.00
项目类别:青年科学基金项目