The complexity of acoustic scenes is one of the most important reasons leading to the performance degradation of distant speech recognition compared to the “close” mode. Generally, acoustic scenes contain both the properties of speech itself and their non-linear changes when transmitting in the reverberantly and noisily acoustic environments. Front-end processing is usually taken advantage of to overcome the changes. Facing the reality that current front-end methods cannot show robust performances because of the lack of the a priori information, this project hopes to obtain the real, reliable and available a priori acoustic scene parameters through designing and recording distant-talking databases, and then predicting the acoustics parameters and speech parameters by deep learning. They will be applied to physical model based methods and data-driven methods for the target speech detection, estimation and separation based front-end processing. This project has potential significance and instruction for distant speech recognition by realizing the mapping from distant-talking speech to close mode.
复杂的声学场景是导致“远讲”语音识别性能相比于“近讲”下降的重要原因之一,广义上的声学场景涵盖了语音自身特性以及其在“远讲”传输过程声学环境中噪声、混响等引入的非线性变化,远讲语音识别前端处理被用来克服这种变化。本项目针对现有的前端处理方法先验声学场景信息不足,鲁棒性受到制约的研究现状,希望通过设计和收集多维标注的远讲语音数据,引入深度学习方法分析和获取真实、有效、可靠的先验声学场景的声学参数和语音参数,并将其应用于基于物理模型方法与数据驱动方法的目标语音信号检测、估计和分离的前端,提升远讲语音识别前端的复杂声学场景鲁棒性。本项目对于最终实现远讲语音向近讲语音的映射,提升远讲语音识别率具有潜在应用价值和指导意义。
复杂的声学场景是导致“远讲”语音识别性能相比于“近讲”下降的重要原因之一,广义上的声学场景涵盖了语音自身特性以及其在“远讲”传输过程声学环境中噪声、混响等引入的非线性变化,远讲语音识别前端处理被用来克服这种变化。本项目针对现有的前端处理方法先验声学场景信息不足,引入深度学习方法分析和获取真实、有效、可靠的先验声学场景的声学参数和语音参数,并将其应用于基于物理模型方法与数据驱动方法的目标语音信号检测、估计和分离的前端,提升远讲语音识别前端的复杂声学场景鲁棒性。本项目对于最终实现远讲语音向近讲语音的映射,提升远讲语音识别率具有潜在应用价值和指导意义。另一方面是利用识别器性能评价方法,开展了基于端到端的具有“注意力”选择性的多通道前端研究,将多传声器的场景引入到前后端融合当中来。项目执行期间,研究成果发表在语音信号处理领域多个期刊以及会议当中。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于计算听觉场景分析的鲁棒语音识别前端处理系统研究
多讲者.全字汇.汉语语音识别的研究
汉语连续语音识别的声学语音学模型研究
基于声学空间非线性流形结构的低资源语音识别