复杂声学环境下的说话人语音信息的抽取、分离和识别

基本信息
批准号:90920002
项目类别:重大研究计划
资助金额:50.00
负责人:王岚
学科分类:
依托单位:中国科学院深圳先进技术研究院
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:刘循英,李卫民,欧阳建军,李崇国,邵阳,李胜,陈金玉,陈蒙,罗凯
关键词:
声学模型抗噪算法非恒定噪声下语音提取和分离大规模连续语音识别
结项摘要

本项目是针对复杂声学环境下的说话人语音信息处理展开研究。我们将分析典型的复杂声学环境- - 驾驶环境下非恒定噪声源的特性,从人类听觉系统对非恒定噪声源的压制机理出发,探索面向识别的语音信息与非恒定噪声的提取和分离方法。我们首先进行驾驶环境下的中文连续语音数据的采集和数据分析,建立一个可推广的基于多项式回归与插值 HMM 的声学模型,用于非恒定噪声下的鲁棒性自动语音识别。我们将探索不同的数学方法以对变化噪声环境下的相匹配的声学模型参数进行动态,实时的运算。我们将探索基于特征与模型空间的参数多项式回归于插值方法,使得计算复杂度和识别性能有合理的平衡。同时,该方法将与自适应训练和区别性训练整合,使之可以应用于大规模连续语音识别的系统框架中。因此,本项目的研究内容不仅具有认知理论研究基础,还可以应用在实际系统中。

项目摘要

针对复杂声学环境下的说话人语音信息处理,我们首先分析了典型的复杂声学环境——驾驶环境下非恒定噪声源的特性,从人类听觉系统对非恒定噪声源的压制机理出发,探索面向识别的语音信息与非恒定噪声的提取和分离方法。驾驶环境下的噪声来源多种多样,特征也各不相同,但是我们观察到驾驶环境下的噪声并不具有平稳特性,噪声强度会不断变化。现有的鲁棒语音识别系统仅考虑稳定强度的噪声,对这种实际驾驶环境的声学情况,难以获得预期的性能改进。通过对驾驶环境下的中文连续语音数据的采集和数据分析,我们建立了一个可推广的基于多项式回归与插值 HMM 的声学模型,用于非恒定噪声下的鲁棒性自动语音识别。这种声学模型可以针对非平稳噪声建立多项式参数估计,当测试环境具有与训练环境不同的噪声强度时,该模型可以根据多项式轨迹估计最优的模型参数,从而提高噪声下的识别精度,增强系统的鲁棒性。.我们探索了不同的数学方法对变化噪声环境下的相匹配的声学模型参数进行动态、实时的运算,特别是提出了基于特征与模型空间(mean, variance and transformation space)的参数多项式回归于插值方法,使得计算复杂度和识别性有合理的平衡。同时,该方法将与结构化模型整合,使之可以应用于大规模连续语音识别的系统框架中。本项目提出的方法在自行采集建立的中文车载语音数据库以及英文标准数据库(Aurora2)上进行验证,实验结果证明,我们所提出的声学模型建立方法,相对于传统的VP-HMM方法可以大大降低参数集合的数量,而保证识别率不降低。同时,这种模型的可推广性可以综合利用均值、方差以及线性变换形式的多项式回归和差值,所获得的识别率相对基线系统有显著提升。此外,与说话人自适应方法共同构造的结构化模型,仍然可以有效提升识别系统性能。从而,充分验证了本项目所研究算法对抗非平稳噪声的有效性、可扩展性和紧致性。这种声学模型建模方法的研究,可以将所建立的鲁棒性语音识别系统应用到车载环境下的语音导航、语音交互等,具有广泛的应用前景。.本项目的研究共发表SCI/EI检索论文13篇,授权发明专利两个,项目负责人是国际会议ISCSLP2012组委会成员。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

王岚的其他基金

批准号:60772165
批准年份:2007
资助金额:25.00
项目类别:面上项目
批准号:71002009
批准年份:2010
资助金额:15.00
项目类别:青年科学基金项目
批准号:61135003
批准年份:2011
资助金额:280.00
项目类别:重点项目
批准号:11103033
批准年份:2011
资助金额:28.00
项目类别:青年科学基金项目
批准号:11573031
批准年份:2015
资助金额:70.00
项目类别:面上项目
批准号:11143006
批准年份:2011
资助金额:10.00
项目类别:专项基金项目
批准号:81703991
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:21603263
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:71804125
批准年份:2018
资助金额:18.50
项目类别:青年科学基金项目
批准号:11162012
批准年份:2011
资助金额:50.00
项目类别:地区科学基金项目
批准号:30570266
批准年份:2005
资助金额:22.00
项目类别:面上项目
批准号:11462018
批准年份:2014
资助金额:60.00
项目类别:地区科学基金项目
批准号:U1736202
批准年份:2017
资助金额:251.00
项目类别:联合基金项目
批准号:11762012
批准年份:2017
资助金额:45.00
项目类别:地区科学基金项目
批准号:31300937
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

在复杂声学环境下听皮层和下丘对目标声频率信息的编码

批准号:31371117
批准年份:2013
负责人:张季平
学科分类:C0904
资助金额:80.00
项目类别:面上项目
2

复杂场景下的说话人特征提取及识别研究

批准号:61876160
批准年份:2018
负责人:洪青阳
学科分类:F0605
资助金额:62.00
项目类别:面上项目
3

复杂声学环境下声学事件检测与音频场景识别方法研究

批准号:U1736210
批准年份:2017
负责人:韩纪庆
学科分类:F0111
资助金额:256.00
项目类别:联合基金项目
4

复杂环境下语音数据的说话人识别及关键词检索

批准号:U1836219
批准年份:2018
负责人:张卫强
学科分类:F0605
资助金额:249.00
项目类别:联合基金项目