Joint Factor Analysis (JFA) estimate the speaker and channel factors using the probabilistic principal component analysis (PPCA) combined with the statistics of each frame according to each of Gaussian distribution in University Background Model (UBM). Unlike JFA which models separately between-speaker and within-speaker variability in a high dimension space of supervectors, a low dimensional subspace of the GMM supervector space is found in i-vector model, which named the total variability space that represents both speaker and channel variability. Three methods are proposed to estimate the total variability space in this project: Firstly, in JFA, a lot of speeches spoken by a lot of speakers and each speaker have some different speeches with different channels. In i-vector model, a lot of speeches spoken by different speakers or in different channels are needed, so we propose the new methods to estimate the total variability space using the principal component analysis and the sparse probabilistic principal component analysis combined with the statistics. Secondly, the deep belief networks has been applied to pattern recognition successfully, and we will transform the statistics or the super vectors to the i-vectors using deep belief networks. Finally, we propose the cluster based method to estimate the space, which is a new way to reinterpret the total variability space. The aim of these three constructing the total variability space methods is to improve the performance for speaker recognition.
联合因子分析模型使用概率主成分分析方法结合语音特征帧在背景模型中各个高斯分布上的统计量,训练出说话人因子和通道因子,消除通道对说话人识别性能影响。i-vector模型则把说话人空间和通道空间放在一起称作总体变化空间,训练算法与联合因子分析模型相同。本项目提出新的方法训练总体变化空间:首先,i-vector模型与联合因子分析模型不同,不再需要每个说话人有多条不同通道的语音,因此提出主成分分析方法和稀疏概率主成分分析方法结合语音在背景模型中高斯分布上的统计量来训练总体变化空间;其次,将深度神经网络模型应用到i-vector的构造中来,将语音的统计量或超向量映射为低维i-vector进行说话人识别;最后,采用聚类的方法训练总体变化空间的基,提出一种新的视角重新阐述总体变化空间,同时也降低了训练时间。本项目积极探索训练总体变化空间的新模型,对进一步提高说话人识别系统的整体性能具有重要意义。
i-vector模型是目前说话人识别中使用最普遍的模型,它把说话人空间和通道空间放在一起称作总体变化空间,长度不一致的语音转换为总体变化空间中的相同大小的向量,然后采用余弦相似度或者概率线性判别分析方法进行说话人识别。本项目从总体变化空间的构造方法出发,提出新的i-vector生成方法,并提出将度量学习算法应用于说话人识别中的马氏距离分类器和通道补偿。首先,传统的i-vector生成方法是根据语音在背景模型各个高斯分布上的统计量,采用概率主成分分析方法进行提取,本项目提出新的基于稀疏概率主成分分析方法构造总体变化空间,实验结果表明能进一步提高说话人识别性能。第二,传统的i-vector生成方法相对复杂,项目提出新的简化的i-vector生成方法,采用传统的主成分分析、因子分析、独立成分分析等方法对统计量进行降维,经过规整后的统计量转换成相对低维的i-vector向量,实验结果表明新的i-vector向量与传统的i-vector向量能形成信息互补,经过得分融合后能获得更好的性能。第三,项目首次将度量学习方法应用到说话人识别中,分别对马氏距离和双线性分类器进行研究。基于信息几何的度量学习算法,KISS算法,SUB-SML等度量学习算法被用来训练分类器的距离度量矩阵。本项目针对度量学习算法的输入是相似样本对和非相似样本对集合的特点,提出基于欧式距离的样本集选择方法,进一步提高样本对的判别能力。实验结果表明,采用度量学习算法的马氏距离分类器的性能优于传统的余弦距离分类器和PLDA模型。第四,度量学习方法不仅仅可以用来训练分类器的距离度量矩阵,项目还将度量学习方法用于通道补偿,实验结果表明,相比传统的LDA、WCCN和LN等方法,基于度量学习的信道补偿技术能获得更好识别性能。本项目探索总体变化空间的构造模型,以及度量学习算法在说话人识别中的应用,对进一步提高说话人识别系统的整体性能具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
Intensive photocatalytic activity enhancement of Bi5O7I via coupling with band structure and content adjustable BiOBrxI1-x
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
听觉计算模型及其在说话人识别中的应用
基于听觉感知模型的说话人识别和语音语种识别新方法研究
说话人识别中时变鲁棒的声纹特征研究
基于迁移学习的跨信道说话人识别研究