面向混响环境的多口音语音识别研究

基本信息

批准号：61771333

项目类别：面上项目

资助金额：62.00

负责人：王龙标

学科分类：

依托单位：天津大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：王洪翠,刘志磊,更太加,郭丽丽,关昊天,李东播

关键词：

混响消除语音增强语音识别口音识别声学信号处理

结项摘要

As the most natural human-computer interaction, speech processing technology has made rapid development in recent years. Multi accent speech recognition in reverberant acoustic environment is a key break in the next step of human speech interaction, but its recognition performance is still low now. To solve the above problems, this project will study the extraction principle and method of the complementary speech feature for multi accent speech in reverberant acoustic environment, mutual enhancement algorithm of the complementary speech feature, and multi task learning algorithm for fast environment and accent adaptation. In the aspect of complementary speech feature extraction, we focus on the principle of the feature separation and extraction of sound source and vocal tract based on phase domain. In the aspect of mutual enhancement of acoustic features, with a variety of features from multi accent speech in reverberant acoustic environment, we study some mutual enhancement algorithms of different kinds of the complementary acoustic features based on the deep neural network. In the aspect of multi task learning, we generate the training data of multi task learning by the algorithm of transfer learning. At the same time, we design the target functions of the speech enhancement, speech recognition, accent recognition, speaker recognition, and with the global optimization parameters of the training model, we will present a fast adaptive algorithm for environment and accent.

语音处理技术作为最为自然的人机交互方式近年取得快速发展。面向混响声学环境的多口音语音识别是人机语音交互下一步要取得重大突破的关键，然而其性能还非常低。针对以上问题，本项目将研究面向混响声学环境下的多口音语音的互补语音特征提取原理和方法，互补语音特征的互增强算法以及环境与口音快速自适应的多任务学习算法。在互补语音特征提取方面，研究基于相位域的声源与声道特征分离和提取原理，并利用人类的听觉特性改进相位信息在混响声学环境下的鲁棒性。在语音特征互增强方面，利用混响声学环境下的多口音语音包含的多种特征的互补性和相关性，研究基于深度神经网络的各种互补特征的互增强算法及其特征间的关系。在多任务学习方面，研究利用迁移学习的算法生成多任务学习的训练数据。同时，设计语音增强、语音识别、口音识别、声纹识别多任务的目标函数，通过全局最优化训练模型的参数，并提出了环境与口音快速自适应的算法。

项目摘要

语音处理技术作为最自然的人机交互方式，近年来快速发展并取得了广泛的应用。面向混响声学环境下的多口音语音识别是人机语音交互的关键和主要挑战。针对这一挑战，本项目从多口音数据库构建、互补特征提取、语音增强、鲁棒语音识别等多维度开展研究。在多口音数据库构建方面，项目组设计并构建了包含东北口音、山西口音、藏族口音和维族口音的100名说话人的高质量多口音数据库（包括近场和远场多口音数据22000余条），同时扩充了7个国内主要方言区的混响语音数据。在互补特征提取方面，项目组提出了基于振幅、相位、韵律、口音等多维度特征的多种互补语音特征提取算法。在语音增强方面，项目组提出了多种互补特征的互增强算法，同时提出了基于听觉机制的目标说话人语音分离与增强方法。在鲁棒语音识别方面，项目组提出了基于语音产生与感知机理的非线性失真语音识别算法，以及语音增强与多口音语音识别联合优化算法，实现一套混响环境下的鲁棒多口音语音识别系统，近场环境下的语音识别准确率超过95.0%，在混响环境下的多口音语音识别的准确率达到85.5%。相关学术成果在语音处理高水平国际期刊和会议上发表了45篇学术论文，并申请8项发明专利（其中5项已经完成授权），培养了2名博士学生以及10名硕士学生。本项目提出了借鉴及融合语音产生与感知机理、信号处理与深度学习的语音增强算法，为复杂场景下的前端信号处理提供了研究思路，具有较高的研究前景和科学意义；本项目提出了语音增强、语音识别、口音识别、声纹识别多任务联合优化的目标函数，通过全局最优化训练模型的参数，提升了语音识别的识别性能。这些方法也对复杂场景下的声纹识别、语音交互具有很强的借鉴作用。同时，在项目执行期间，与国内外10多家著名高校、科研机构、企业开展深入合作，相关成果被应用到华为、阿里巴巴、滴滴出行、新大陆等多个行业的龙头企业。今后，项目组计划将开源多口音数据库和语音识别系统，预计将产生更加广泛的影响。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：

发表时间：2017

DOI：10.3969/j.issn.1006-1355.2021.03.039

发表时间：2021

DOI：

发表时间：2022

王龙标的其他基金

相似国自然基金

云南民族口音汉语普通话语音识别研究

批准号：60265001

批准年份：2002

负责人：杨鉴

学科分类：F0605

资助金额：22.00

项目类别：地区科学基金项目

混合口音语音识别中自适应分层发音变异模型研究

批准号：60975018

批准年份：2009

负责人：刘轶

学科分类：F0605

资助金额：27.00

项目类别：面上项目

面向语音与面部表情信号的多模式情感识别技术研究

批准号：61503038

批准年份：2015

负责人：韩志艳

学科分类：F0604

资助金额：19.00

项目类别：青年科学基金项目

基于深度学习的单通道语音混响消除技术研究

批准号：61671381

批准年份：2016

负责人：张晓雷

学科分类：F0111

资助金额：58.00

项目类别：面上项目

面向混响环境的多口音语音识别研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于小波高阶统计量的数字图像来源取证方法

多孔夹芯层组合方式对夹层板隔声特性影响研究

融合字符串特征的维吾尔语形态切分

王龙标的其他基金

相似国自然基金