复杂声学环境下的说话人语音信息的抽取、分离和识别

基本信息

批准号：90920002

项目类别：重大研究计划

资助金额：50.00

负责人：王岚

学科分类：

依托单位：中国科学院深圳先进技术研究院

批准年份：2009

结题年份：2012

起止时间：2010-01-01 - 2012-12-31

项目状态：已结题

项目参与者：刘循英,李卫民,欧阳建军,李崇国,邵阳,李胜,陈金玉,陈蒙,罗凯

关键词：

声学模型抗噪算法非恒定噪声下语音提取和分离中大规模连续语音识别

结项摘要

本项目是针对复杂声学环境下的说话人语音信息处理展开研究。我们将分析典型的复杂声学环境- - 驾驶环境下非恒定噪声源的特性，从人类听觉系统对非恒定噪声源的压制机理出发，探索面向识别的语音信息与非恒定噪声的提取和分离方法。我们首先进行驾驶环境下的中文连续语音数据的采集和数据分析，建立一个可推广的基于多项式回归与插值 HMM 的声学模型，用于非恒定噪声下的鲁棒性自动语音识别。我们将探索不同的数学方法以对变化噪声环境下的相匹配的声学模型参数进行动态，实时的运算。我们将探索基于特征与模型空间的参数多项式回归于插值方法，使得计算复杂度和识别性能有合理的平衡。同时，该方法将与自适应训练和区别性训练整合，使之可以应用于大规模连续语音识别的系统框架中。因此，本项目的研究内容不仅具有认知理论研究基础，还可以应用在实际系统中。

项目摘要

针对复杂声学环境下的说话人语音信息处理，我们首先分析了典型的复杂声学环境——驾驶环境下非恒定噪声源的特性，从人类听觉系统对非恒定噪声源的压制机理出发，探索面向识别的语音信息与非恒定噪声的提取和分离方法。驾驶环境下的噪声来源多种多样，特征也各不相同，但是我们观察到驾驶环境下的噪声并不具有平稳特性，噪声强度会不断变化。现有的鲁棒语音识别系统仅考虑稳定强度的噪声，对这种实际驾驶环境的声学情况，难以获得预期的性能改进。通过对驾驶环境下的中文连续语音数据的采集和数据分析，我们建立了一个可推广的基于多项式回归与插值 HMM 的声学模型，用于非恒定噪声下的鲁棒性自动语音识别。这种声学模型可以针对非平稳噪声建立多项式参数估计，当测试环境具有与训练环境不同的噪声强度时，该模型可以根据多项式轨迹估计最优的模型参数，从而提高噪声下的识别精度，增强系统的鲁棒性。.我们探索了不同的数学方法对变化噪声环境下的相匹配的声学模型参数进行动态、实时的运算，特别是提出了基于特征与模型空间（mean, variance and transformation space）的参数多项式回归于插值方法，使得计算复杂度和识别性有合理的平衡。同时，该方法将与结构化模型整合，使之可以应用于大规模连续语音识别的系统框架中。本项目提出的方法在自行采集建立的中文车载语音数据库以及英文标准数据库（Aurora2）上进行验证，实验结果证明，我们所提出的声学模型建立方法，相对于传统的VP-HMM方法可以大大降低参数集合的数量，而保证识别率不降低。同时，这种模型的可推广性可以综合利用均值、方差以及线性变换形式的多项式回归和差值，所获得的识别率相对基线系统有显著提升。此外，与说话人自适应方法共同构造的结构化模型，仍然可以有效提升识别系统性能。从而，充分验证了本项目所研究算法对抗非平稳噪声的有效性、可扩展性和紧致性。这种声学模型建模方法的研究，可以将所建立的鲁棒性语音识别系统应用到车载环境下的语音导航、语音交互等，具有广泛的应用前景。.本项目的研究共发表SCI／EI检索论文13篇，授权发明专利两个，项目负责人是国际会议ISCSLP2012组委会成员。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.11862/CJIC.2019.081

发表时间：2019

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

王岚的其他基金

批准号：60772165

批准年份：2007

资助金额：25.00

项目类别：面上项目

批准号：71002009

批准年份：2010

资助金额：15.00

项目类别：青年科学基金项目

批准号：61135003

批准年份：2011

资助金额：280.00

项目类别：重点项目

批准号：11103033

批准年份：2011

资助金额：28.00

项目类别：青年科学基金项目

批准号：11573031

批准年份：2015

资助金额：70.00

项目类别：面上项目

批准号：11143006

批准年份：2011

资助金额：10.00

项目类别：专项基金项目

批准号：81703991

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：21603263

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：71804125

批准年份：2018

资助金额：18.50

项目类别：青年科学基金项目

批准号：11162012

批准年份：2011

资助金额：50.00

项目类别：地区科学基金项目

批准号：30570266

批准年份：2005

资助金额：22.00

项目类别：面上项目

批准号：11462018

批准年份：2014

资助金额：60.00

项目类别：地区科学基金项目

批准号：U1736202

批准年份：2017

资助金额：251.00

项目类别：联合基金项目

批准号：11762012

批准年份：2017

资助金额：45.00

项目类别：地区科学基金项目

批准号：31300937

批准年份：2013

资助金额：22.00

项目类别：青年科学基金项目

相似国自然基金

在复杂声学环境下听皮层和下丘对目标声频率信息的编码

批准号：31371117

批准年份：2013

负责人：张季平

学科分类：C0904

资助金额：80.00

项目类别：面上项目

复杂场景下的说话人特征提取及识别研究

批准号：61876160

批准年份：2018

负责人：洪青阳

学科分类：F0605

资助金额：62.00

项目类别：面上项目

复杂声学环境下声学事件检测与音频场景识别方法研究

批准号：U1736210

批准年份：2017

负责人：韩纪庆

学科分类：F0111

资助金额：256.00

项目类别：联合基金项目

复杂环境下语音数据的说话人识别及关键词检索

批准号：U1836219

批准年份：2018

负责人：张卫强

学科分类：F0605

资助金额：249.00

项目类别：联合基金项目

复杂声学环境下的说话人语音信息的抽取、分离和识别

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

中温固体氧化物燃料电池复合阴极材料LaBiMn_2O_6-Sm_(0.2)Ce_(0.8)O_(1.9)的制备与电化学性质

一种基于多层设计空间缩减策略的近似高维优化方法

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

基于改进LinkNet的寒旱区遥感图像河流识别方法

王岚的其他基金

发音错误自动检测方法的研究及其在语言学习中的应用

战略互动导向，企业间关系与协作创新绩效：权变的动态视角

语音生成的计算建模及在言语障碍康复中的应用

星系形成模型的简并性：气体冷却、恒星形成与反馈

温暗物质宇宙学中的星系形成

小质量星系的形成模型研究

基于Klotho调控的FGF23/Pit1信号通路研究健脾补肾活血化浊中药对糖尿病肾病血管钙化的干预机制

微藻生物质生产中细胞聚集机理与动力学研究

基于ICF的慢阻肺功能障碍风险评估模型的构建与多学科协作式康复干预策略研究

内蒙古西部环境下路用复合胶粉改性沥青流变学及细观力学特性实验研究

丙型肝炎病毒全基因转基因小鼠模型建立和病理特性研究

冻融循环作用下沥青混合料界面粘结退化的细观力学机理研究

复杂环境下语音数据的目标识别与内容转写

内蒙古西部环境及荷载作用下温拌胶粉改性沥青细观断裂行为研究

意识下注视方向对注意的影响及其在皮层下加工的神经机制

相似国自然基金