基于声学场景先验的远讲语音识别前端研究

基本信息

批准号：61601453

项目类别：青年科学基金项目

资助金额：22.00

负责人：王晓飞

学科分类：

依托单位：中国科学院声学研究所

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：国雁萌,纳跃跃,李煦,王子腾,王智超,李佩佳

关键词：

语音增强和分离远讲数据库声学场景先验远讲语音识别前端深度学习

结项摘要

The complexity of acoustic scenes is one of the most important reasons leading to the performance degradation of distant speech recognition compared to the “close” mode. Generally, acoustic scenes contain both the properties of speech itself and their non-linear changes when transmitting in the reverberantly and noisily acoustic environments. Front-end processing is usually taken advantage of to overcome the changes. Facing the reality that current front-end methods cannot show robust performances because of the lack of the a priori information, this project hopes to obtain the real, reliable and available a priori acoustic scene parameters through designing and recording distant-talking databases, and then predicting the acoustics parameters and speech parameters by deep learning. They will be applied to physical model based methods and data-driven methods for the target speech detection, estimation and separation based front-end processing. This project has potential significance and instruction for distant speech recognition by realizing the mapping from distant-talking speech to close mode.

复杂的声学场景是导致“远讲”语音识别性能相比于“近讲”下降的重要原因之一，广义上的声学场景涵盖了语音自身特性以及其在“远讲”传输过程声学环境中噪声、混响等引入的非线性变化，远讲语音识别前端处理被用来克服这种变化。本项目针对现有的前端处理方法先验声学场景信息不足，鲁棒性受到制约的研究现状，希望通过设计和收集多维标注的远讲语音数据，引入深度学习方法分析和获取真实、有效、可靠的先验声学场景的声学参数和语音参数，并将其应用于基于物理模型方法与数据驱动方法的目标语音信号检测、估计和分离的前端，提升远讲语音识别前端的复杂声学场景鲁棒性。本项目对于最终实现远讲语音向近讲语音的映射，提升远讲语音识别率具有潜在应用价值和指导意义。

项目摘要

复杂的声学场景是导致“远讲”语音识别性能相比于“近讲”下降的重要原因之一，广义上的声学场景涵盖了语音自身特性以及其在“远讲”传输过程声学环境中噪声、混响等引入的非线性变化，远讲语音识别前端处理被用来克服这种变化。本项目针对现有的前端处理方法先验声学场景信息不足，引入深度学习方法分析和获取真实、有效、可靠的先验声学场景的声学参数和语音参数，并将其应用于基于物理模型方法与数据驱动方法的目标语音信号检测、估计和分离的前端，提升远讲语音识别前端的复杂声学场景鲁棒性。本项目对于最终实现远讲语音向近讲语音的映射，提升远讲语音识别率具有潜在应用价值和指导意义。另一方面是利用识别器性能评价方法，开展了基于端到端的具有“注意力”选择性的多通道前端研究，将多传声器的场景引入到前后端融合当中来。项目执行期间，研究成果发表在语音信号处理领域多个期刊以及会议当中。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：

发表时间：2019

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：

发表时间：2017

DOI：10.16509/j.georeview.2021.02.010

发表时间：2021

王晓飞的其他基金

批准号：51408229

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：11401092

批准年份：2014

资助金额：22.00

项目类别：青年科学基金项目

批准号：11504090

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：30971071

批准年份：2009

资助金额：31.00

项目类别：面上项目

批准号：61702364

批准年份：2017

资助金额：26.00

项目类别：青年科学基金项目

批准号：51602077

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：39170438

批准年份：1991

资助金额：4.00

项目类别：面上项目

批准号：11126106

批准年份：2011

资助金额：3.00

项目类别：数学天元基金项目

批准号：30670923

批准年份：2006

资助金额：30.00

项目类别：面上项目

批准号：51878297

批准年份：2018

资助金额：60.00

项目类别：面上项目

相似国自然基金

基于计算听觉场景分析的鲁棒语音识别前端处理系统研究

批准号：61403370

批准年份：2014

负责人：梁山

学科分类：F0605

资助金额：26.00

项目类别：青年科学基金项目

多讲者.全字汇.汉语语音识别的研究

批准号：69075007

批准年份：1990

负责人：陈永彬

学科分类：F0605

资助金额：3.00

项目类别：面上项目

汉语连续语音识别的声学语音学模型研究

批准号：69672010

批准年份：1996

负责人：富煜清

学科分类：F0111

资助金额：8.00

项目类别：面上项目

基于声学空间非线性流形结构的低资源语音识别

批准号：61403415

批准年份：2014

负责人：张文林

学科分类：F0605

资助金额：25.00

项目类别：青年科学基金项目

基于声学场景先验的远讲语音识别前端研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于旋量理论的数控机床几何误差分离与补偿方法研究

现代优化理论与应用

基于小波高阶统计量的数字图像来源取证方法

油源断裂输导和遮挡配置油气成藏有利部位预测方法及其应用

王晓飞的其他基金

欧氏三维空间中公路线形微分几何参数安全特征及一致性评价方法研究

隐树模型的结构学习、参数估计和实际应用

非化学计量比钛酸锶的微结构及多功能电磁性能研究

β2-肾上腺素能受体介导的肺泡上皮Na+吸收的细胞机制研究

异构移动网络中协作基站缓存的优化理论与技术研究

新型液态聚碳硅烷前驱体制备碳化硅基超高温陶瓷及复合材料的研究

无尾两栖类性染色体分化及进化的研究

混合贝叶斯网的概率推理

小气道上皮CFTR介导与调控的离子转运和免疫因子分泌

欧氏三维空间中公路线形几何连续性衰退对行车安全性影响机理及优化设计方法

相似国自然基金