基于声学场景先验的远讲语音识别前端研究

基本信息
批准号:61601453
项目类别:青年科学基金项目
资助金额:22.00
负责人:王晓飞
学科分类:
依托单位:中国科学院声学研究所
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:国雁萌,纳跃跃,李煦,王子腾,王智超,李佩佳
关键词:
语音增强和分离远讲数据库声学场景先验远讲语音识别前端深度学习
结项摘要

The complexity of acoustic scenes is one of the most important reasons leading to the performance degradation of distant speech recognition compared to the “close” mode. Generally, acoustic scenes contain both the properties of speech itself and their non-linear changes when transmitting in the reverberantly and noisily acoustic environments. Front-end processing is usually taken advantage of to overcome the changes. Facing the reality that current front-end methods cannot show robust performances because of the lack of the a priori information, this project hopes to obtain the real, reliable and available a priori acoustic scene parameters through designing and recording distant-talking databases, and then predicting the acoustics parameters and speech parameters by deep learning. They will be applied to physical model based methods and data-driven methods for the target speech detection, estimation and separation based front-end processing. This project has potential significance and instruction for distant speech recognition by realizing the mapping from distant-talking speech to close mode.

复杂的声学场景是导致“远讲”语音识别性能相比于“近讲”下降的重要原因之一,广义上的声学场景涵盖了语音自身特性以及其在“远讲”传输过程声学环境中噪声、混响等引入的非线性变化,远讲语音识别前端处理被用来克服这种变化。本项目针对现有的前端处理方法先验声学场景信息不足,鲁棒性受到制约的研究现状,希望通过设计和收集多维标注的远讲语音数据,引入深度学习方法分析和获取真实、有效、可靠的先验声学场景的声学参数和语音参数,并将其应用于基于物理模型方法与数据驱动方法的目标语音信号检测、估计和分离的前端,提升远讲语音识别前端的复杂声学场景鲁棒性。本项目对于最终实现远讲语音向近讲语音的映射,提升远讲语音识别率具有潜在应用价值和指导意义。

项目摘要

复杂的声学场景是导致“远讲”语音识别性能相比于“近讲”下降的重要原因之一,广义上的声学场景涵盖了语音自身特性以及其在“远讲”传输过程声学环境中噪声、混响等引入的非线性变化,远讲语音识别前端处理被用来克服这种变化。本项目针对现有的前端处理方法先验声学场景信息不足,引入深度学习方法分析和获取真实、有效、可靠的先验声学场景的声学参数和语音参数,并将其应用于基于物理模型方法与数据驱动方法的目标语音信号检测、估计和分离的前端,提升远讲语音识别前端的复杂声学场景鲁棒性。本项目对于最终实现远讲语音向近讲语音的映射,提升远讲语音识别率具有潜在应用价值和指导意义。另一方面是利用识别器性能评价方法,开展了基于端到端的具有“注意力”选择性的多通道前端研究,将多传声器的场景引入到前后端融合当中来。项目执行期间,研究成果发表在语音信号处理领域多个期刊以及会议当中。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

王晓飞的其他基金

批准号:51408229
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:11401092
批准年份:2014
资助金额:22.00
项目类别:青年科学基金项目
批准号:11504090
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:30971071
批准年份:2009
资助金额:31.00
项目类别:面上项目
批准号:61702364
批准年份:2017
资助金额:26.00
项目类别:青年科学基金项目
批准号:51602077
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:39170438
批准年份:1991
资助金额:4.00
项目类别:面上项目
批准号:11126106
批准年份:2011
资助金额:3.00
项目类别:数学天元基金项目
批准号:30670923
批准年份:2006
资助金额:30.00
项目类别:面上项目
批准号:51878297
批准年份:2018
资助金额:60.00
项目类别:面上项目

相似国自然基金

1

基于计算听觉场景分析的鲁棒语音识别前端处理系统研究

批准号:61403370
批准年份:2014
负责人:梁山
学科分类:F0605
资助金额:26.00
项目类别:青年科学基金项目
2

多讲者.全字汇.汉语语音识别的研究

批准号:69075007
批准年份:1990
负责人:陈永彬
学科分类:F0605
资助金额:3.00
项目类别:面上项目
3

汉语连续语音识别的声学语音学模型研究

批准号:69672010
批准年份:1996
负责人:富煜清
学科分类:F0111
资助金额:8.00
项目类别:面上项目
4

基于声学空间非线性流形结构的低资源语音识别

批准号:61403415
批准年份:2014
负责人:张文林
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目