As the most natural human-computer interaction, speech processing technology has made rapid development in recent years. Multi accent speech recognition in reverberant acoustic environment is a key break in the next step of human speech interaction, but its recognition performance is still low now. To solve the above problems, this project will study the extraction principle and method of the complementary speech feature for multi accent speech in reverberant acoustic environment, mutual enhancement algorithm of the complementary speech feature, and multi task learning algorithm for fast environment and accent adaptation. In the aspect of complementary speech feature extraction, we focus on the principle of the feature separation and extraction of sound source and vocal tract based on phase domain. In the aspect of mutual enhancement of acoustic features, with a variety of features from multi accent speech in reverberant acoustic environment, we study some mutual enhancement algorithms of different kinds of the complementary acoustic features based on the deep neural network. In the aspect of multi task learning, we generate the training data of multi task learning by the algorithm of transfer learning. At the same time, we design the target functions of the speech enhancement, speech recognition, accent recognition, speaker recognition, and with the global optimization parameters of the training model, we will present a fast adaptive algorithm for environment and accent.
语音处理技术作为最为自然的人机交互方式近年取得快速发展。面向混响声学环境的多口音语音识别是人机语音交互下一步要取得重大突破的关键,然而其性能还非常低。针对以上问题,本项目将研究面向混响声学环境下的多口音语音的互补语音特征提取原理和方法,互补语音特征的互增强算法以及环境与口音快速自适应的多任务学习算法。在互补语音特征提取方面,研究基于相位域的声源与声道特征分离和提取原理,并利用人类的听觉特性改进相位信息在混响声学环境下的鲁棒性。在语音特征互增强方面,利用混响声学环境下的多口音语音包含的多种特征的互补性和相关性,研究基于深度神经网络的各种互补特征的互增强算法及其特征间的关系。在多任务学习方面,研究利用迁移学习的算法生成多任务学习的训练数据。同时,设计语音增强、语音识别、口音识别、声纹识别多任务的目标函数,通过全局最优化训练模型的参数,并提出了环境与口音快速自适应的算法。
语音处理技术作为最自然的人机交互方式,近年来快速发展并取得了广泛的应用。面向混响声学环境下的多口音语音识别是人机语音交互的关键和主要挑战。针对这一挑战,本项目从多口音数据库构建、互补特征提取、语音增强、鲁棒语音识别等多维度开展研究。在多口音数据库构建方面,项目组设计并构建了包含东北口音、山西口音、藏族口音和维族口音的100名说话人的高质量多口音数据库(包括近场和远场多口音数据22000余条),同时扩充了7个国内主要方言区的混响语音数据。在互补特征提取方面,项目组提出了基于振幅、相位、韵律、口音等多维度特征的多种互补语音特征提取算法。在语音增强方面,项目组提出了多种互补特征的互增强算法,同时提出了基于听觉机制的目标说话人语音分离与增强方法。在鲁棒语音识别方面,项目组提出了基于语音产生与感知机理的非线性失真语音识别算法,以及语音增强与多口音语音识别联合优化算法,实现一套混响环境下的鲁棒多口音语音识别系统,近场环境下的语音识别准确率超过95.0%,在混响环境下的多口音语音识别的准确率达到85.5%。相关学术成果在语音处理高水平国际期刊和会议上发表了45篇学术论文,并申请8项发明专利(其中5项已经完成授权),培养了2名博士学生以及10名硕士学生。本项目提出了借鉴及融合语音产生与感知机理、信号处理与深度学习的语音增强算法,为复杂场景下的前端信号处理提供了研究思路,具有较高的研究前景和科学意义;本项目提出了语音增强、语音识别、口音识别、声纹识别多任务联合优化的目标函数,通过全局最优化训练模型的参数,提升了语音识别的识别性能。这些方法也对复杂场景下的声纹识别、语音交互具有很强的借鉴作用。同时,在项目执行期间,与国内外10多家著名高校、科研机构、企业开展深入合作,相关成果被应用到华为、阿里巴巴、滴滴出行、新大陆等多个行业的龙头企业。今后,项目组计划将开源多口音数据库和语音识别系统,预计将产生更加广泛的影响。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
低轨卫星通信信道分配策略
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于分形维数和支持向量机的串联电弧故障诊断方法
云南民族口音汉语普通话语音识别研究
混合口音语音识别中自适应分层发音变异模型研究
面向语音与面部表情信号的多模式情感识别技术研究
基于深度学习的单通道语音混响消除技术研究