Speaker recognition (also named voiceprint recognition) is one of key technologies of speech interaction, and can be widely used for identity authentication. But its performance might deteriorate greatly under the scenes of short utterance, domain mismatch, noisy/far-field interference. To improve the robustness of speaker recognition under the complex sceces, this project will conduct the innovative studies of three fields. Firstly, for the case of short utterance, we adopt ResNet, Attention mechanism and Filler nodes, to design the discriminative network and extract the utterance-level speaker feature (speaker embedding). The speaker recognition system will be built based on x-vector. Secondly, for the case of domain mismatch, we apply the method of transfer learning to make adaptative training of x-vector extraction network and probability linear discriminative analysis (PLDA) classifier, which hope to improve the recognition performance of cross-channel or cross-language. Thirdly, for the case of noisy/far-field interference, we adopt the generative adversarial network (GAN) to extract the noise-robust deep feature, and further design a new GAN-based speaker recognition system fused with the x-vector extraction. This project will be based on our foundation of related studies, and focus on the key problems. The contributions hope to have important academic significance and high application value.
说话人识别(又称声纹识别)是人机语音交互关键技术之一,可广泛应用于身份认证,但在短语音、领域不匹配、噪声/远场干扰等场境下,其性能会急剧下降。为提高复杂场景下说话人识别的鲁棒性,本项目拟开展三个方面的创新性研究:(1)针对短语音,采用残差网络(ResNet)、Attention机制、Filler节点,设计区分性网络,提取段级别的说话人特征(Speaker Embedding),构建基于x-vector的说话人识别系统。(2)针对领域不匹配,采用迁移学习方法,对x-vector提取网络、概率线性区分分析(PLDA)分类器做自适应训练,以提高跨信道、跨语种的识别性能。(3)针对噪声/远场干扰,采用生成式对抗网络(GAN),提取对噪声鲁棒的深度特征;并融合x-vector提取过程,设计新的GAN说话人识别系统。本项目立足课题组已有基础,聚焦关键问题,研究成果具有重要的学术意义和较高的应用价值。
本项目主要针对短语音、领域不匹配、噪声/远场等复杂场景,开展说话人特征(即Speaker Embedding)如何有效提取和识别的研究,内容涉及网络框架、生成式对抗网络(GAN)训练、概率线性区分性分析(PLDA)等方面。.本项目进展顺利,总体按研究计划执行,在三个关键科学问题做了深入探索,根据实验结果也做了局部调整。项目初期首先分析了帧级别和段级别特征的优缺点,有前瞻性地采用x-vector这种段级别特征。针对短语音问题,本项目对x-vector网络做了深入研究,包括Attention机制和Squeeze-and-Excitation(SE)组件,率先实现了ResNet-SE、Conformer等改进版网络;经实验对比,没有采用原有方案的filler节点,而是采用区分性损失函数,如AAM-Softmax。针对领域不匹配问题,深入研究x-vector迁移学习和多任务学习框架,取得明显提升效果,尤其是文本相关任务;PLDA迁移学习侧重点有所调整,主要采用自适应方案,另外拓展了错误标签纠正技术的研究,实现了带噪标签PLDA(NL-PLDA)的训练。针对噪声/远场干扰问题,本项目按预定的研究目标,成功设计出生GAN框架,包括生成网络和判别网络,有效提取新的深度特征,并跟说话人识别任务融合起来。后续进一步提出基于对抗性学习的深度表征分解方法,使得网络训练更稳定,并有效改善语速不匹配问题。.本项目已在IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)和ICASSP/Interspeech等权威刊物、顶级和旗舰会议发表32篇展示创新性研究成果的论文,相关工作被新加坡国立大学、腾讯AI实验室、西北工业大学等国内外同行引用。与知名企业合作,项目成果已应用到智能手机、电力调度等产品系统。2020年5月,本项目发布了国内第一套声纹识别开源工具ASV-Subtools,集成TDNN、E-TDNN、F-TDNN、ECAPA-TDNN、RepVGG、Conformer等网络,为OLR、CNSRC国际语音评测提供基线系统,同时助力国内外学术研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
城市轨道交通车站火灾情况下客流疏散能力评价
复杂环境下语音数据的说话人识别及关键词检索
复杂环境下语音数据的说话人识别及关键词关联检索
基于JFA的耳语发音方式下说话人识别研究
噪声和短语音条件下的说话人识别