Whatever in the field of national security or for civil use, the recorded speech are mainly saved as the conversational format, for example television and meeting recordings, and the voice chats in internet. It is important to study on speaker identification and diarization for the conversational speech. This problem can be solved by speaker segmentation and speaker clustering. To address these issues, this project focus on the research of speaker modeling based on factor analysis, which estimates a small quantity of parameters. Also based on the speaker factor, we make a study of the speaker clustering with automatically estimating the number of clusters. Moreover in this work we try to solve the short-time speaker recognition and enhance the fault-tolerant ability by factor compensation and scoring. Based on the research achievement we are devoted to establish the framework of speaker recognition for conversational speech, in order to motivate the practical application of speaker recognition. This modeling method can be further extended to other areas such as speech recognition and image analysis.
无论在国家安全还是民用领域,实际应用中获取的语音数据大多是包含多人会话的录音,如电话对话、会议录音、网络聊天等,针对这种实际语音进行说话人身份确认或追踪的问题尤为重要。对这类问题的解决包括说话人分段聚类和说话人识别两个方面,本项目重点研究基于因子分析的说话人建模技术在说话人分段聚类和说话人识别中的应用,通过对少量因子的估计建立更准确的模型;基于说话人因子研究未知类别数目情况下的说话人聚类算法;通过研究对说话人因子的补偿和打分技术,解决聚类后短时语音说话人识别问题和对聚类结果的容错性。在此研究基础上,构建基于因子分析的会话语音说话人识别系统,推动说话人识别技术在实际应用中不断完善和发展。本研究的相关建模方法和聚类方法对图像分析、语音识别的其他领域也有借鉴意义。
会话语音中包含多人会话录音,针对这种语音进行说话人身份确认或追踪时往往会导致识别性能下降,因此需要进行说话人分段聚类,然后再识别。而基于因子分析的说话人建模技术作为说话人识别领域的主流技术,可以显著地提高说话人聚类和识别的性能。针对因子分析技术,本项目从因子提取和建模两个方向进行优化。在因子提取部分,对总变化因子进行建模,添加不确定因子以提高总变化因子在短时语音提取时的可靠性。在这一基础上,可以直接从声学特征直接提取总变化因子,将UBM模型融入总变化因子提取过程中以减小在短时语音情况下总变化因子的不确定性。PLDA模型对总变化因子的建模可以进一步提高说话人聚类和识别的性能,因此采用PLDA模型的自适应方法以提高说话人识别技术在多种会话语音条件下的识别鲁棒性。使用全后验概率PLDA模型在说话人聚类和识别的决策过程中也可以提高在短时语音条件下的准确率。近年来深度神经网络(DNN)在说话人识别的应用中得到了更广泛的应用,因此本项目也在总变化因子提取时加入DNN模型提高说话人识别的性能。综合上述成果,本项目成功构建了基于因子分析的会话语音说话人识别系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于电话语音的维吾尔语说话人识别研究
基于ARVM/GMM-UBM电话语音的说话人识别研究
基于听觉感知模型的说话人识别和语音语种识别新方法研究
噪声和短语音条件下的说话人识别