基于因子分析的会话语音说话人识别研究

基本信息

批准号：11504406

项目类别：青年科学基金项目

资助金额：24.00

负责人：杨琳

学科分类：

依托单位：中国科学院声学研究所

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：索宏彬,杨海,万玉龙,许云飞,黄厚军,张健

关键词：

说话人识别因子分析说话人日志说话人聚类分段聚类

结项摘要

Whatever in the field of national security or for civil use, the recorded speech are mainly saved as the conversational format, for example television and meeting recordings, and the voice chats in internet. It is important to study on speaker identification and diarization for the conversational speech. This problem can be solved by speaker segmentation and speaker clustering. To address these issues, this project focus on the research of speaker modeling based on factor analysis, which estimates a small quantity of parameters. Also based on the speaker factor, we make a study of the speaker clustering with automatically estimating the number of clusters. Moreover in this work we try to solve the short-time speaker recognition and enhance the fault-tolerant ability by factor compensation and scoring. Based on the research achievement we are devoted to establish the framework of speaker recognition for conversational speech, in order to motivate the practical application of speaker recognition. This modeling method can be further extended to other areas such as speech recognition and image analysis.

无论在国家安全还是民用领域，实际应用中获取的语音数据大多是包含多人会话的录音，如电话对话、会议录音、网络聊天等，针对这种实际语音进行说话人身份确认或追踪的问题尤为重要。对这类问题的解决包括说话人分段聚类和说话人识别两个方面，本项目重点研究基于因子分析的说话人建模技术在说话人分段聚类和说话人识别中的应用，通过对少量因子的估计建立更准确的模型；基于说话人因子研究未知类别数目情况下的说话人聚类算法；通过研究对说话人因子的补偿和打分技术，解决聚类后短时语音说话人识别问题和对聚类结果的容错性。在此研究基础上，构建基于因子分析的会话语音说话人识别系统，推动说话人识别技术在实际应用中不断完善和发展。本研究的相关建模方法和聚类方法对图像分析、语音识别的其他领域也有借鉴意义。

项目摘要

会话语音中包含多人会话录音，针对这种语音进行说话人身份确认或追踪时往往会导致识别性能下降，因此需要进行说话人分段聚类，然后再识别。而基于因子分析的说话人建模技术作为说话人识别领域的主流技术，可以显著地提高说话人聚类和识别的性能。针对因子分析技术，本项目从因子提取和建模两个方向进行优化。在因子提取部分，对总变化因子进行建模，添加不确定因子以提高总变化因子在短时语音提取时的可靠性。在这一基础上，可以直接从声学特征直接提取总变化因子，将UBM模型融入总变化因子提取过程中以减小在短时语音情况下总变化因子的不确定性。PLDA模型对总变化因子的建模可以进一步提高说话人聚类和识别的性能，因此采用PLDA模型的自适应方法以提高说话人识别技术在多种会话语音条件下的识别鲁棒性。使用全后验概率PLDA模型在说话人聚类和识别的决策过程中也可以提高在短时语音条件下的准确率。近年来深度神经网络（DNN）在说话人识别的应用中得到了更广泛的应用，因此本项目也在总变化因子提取时加入DNN模型提高说话人识别的性能。综合上述成果，本项目成功构建了基于因子分析的会话语音说话人识别系统。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.13973/j.cnki.robot.210412

发表时间：2022

杨琳的其他基金

批准号：41471178

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：U1233131

批准年份：2012

资助金额：43.00

项目类别：联合基金项目

批准号：30570733

批准年份：2005

资助金额：26.00

项目类别：面上项目

批准号：31500479

批准年份：2015

资助金额：19.00

项目类别：青年科学基金项目

批准号：30400217

批准年份：2004

资助金额：20.00

项目类别：青年科学基金项目

批准号：71702136

批准年份：2017

资助金额：18.00

项目类别：青年科学基金项目

批准号：71804166

批准年份：2018

资助金额：19.50

项目类别：青年科学基金项目

批准号：30200075

批准年份：2002

资助金额：20.00

项目类别：青年科学基金项目

批准号：81501289

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：31660209

批准年份：2016

资助金额：39.00

项目类别：地区科学基金项目

批准号：31860209

批准年份：2018

资助金额：40.00

项目类别：地区科学基金项目

批准号：51402206

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：30971221

批准年份：2009

资助金额：31.00

项目类别：面上项目

批准号：30973224

批准年份：2009

资助金额：31.00

项目类别：面上项目

批准号：31870545

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：81704004

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：11604072

批准年份：2016

资助金额：22.00

项目类别：青年科学基金项目

批准号：81403211

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：31700443

批准年份：2017

资助金额：22.00

项目类别：青年科学基金项目

批准号：41001298

批准年份：2010

资助金额：18.00

项目类别：青年科学基金项目

批准号：81760416

批准年份：2017

资助金额：34.00

项目类别：地区科学基金项目

批准号：61901478

批准年份：2019

资助金额：25.50

项目类别：青年科学基金项目

批准号：21407033

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：60776819

批准年份：2007

资助金额：23.00

项目类别：联合基金项目

批准号：31260178

批准年份：2012

资助金额：50.00

项目类别：地区科学基金项目

相似国自然基金

基于电话语音的维吾尔语说话人识别研究

批准号：61063024

批准年份：2010

负责人：吾守尔·斯拉木

学科分类：F0211

资助金额：28.00

项目类别：地区科学基金项目

基于ARVM/GMM-UBM电话语音的说话人识别研究

批准号：60272039

批准年份：2002

负责人：戴蓓倩

学科分类：F0111

资助金额：20.00

项目类别：面上项目

基于听觉感知模型的说话人识别和语音语种识别新方法研究

批准号：60572083

批准年份：2005

负责人：刘加

学科分类：F0111

资助金额：23.00

项目类别：面上项目

噪声和短语音条件下的说话人识别

批准号：61370034

批准年份：2013

负责人：张卫强

学科分类：F0605

资助金额：82.00

项目类别：面上项目

基于因子分析的会话语音说话人识别研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

新型树启发式搜索算法的机器人路径规划

基于自适应干扰估测器的协作机器人关节速度波动抑制方法

杨琳的其他基金

数字土壤制图中人类活动影响因子的定量刻画

驾驶舱话音记录器音源识别和说话人识别的基础研究

尖端扭转型室速发生机制与时空异质性特征的定量心脏电生理研究

基于显微形态学的桉树细胞皱缩及其回复机制与调控研究

羧基肽酶H致自身免疫糖尿病的机制研究

复杂项目应对交叉延误：组织驱动机理、分布规律预测与同步策略研究

不确定性环境下可再生能源和CCUS协同减排的机理、效应与政策机制研究

妊娠期MRI暴露降低子代学习记忆能力的分子机制研究

SYTL3基因与新生儿胼胝体发育不良的关系及分子机制研究

中国重要竹子害虫额垠叶蝉族的区系分类、DNA条形码及系统发育研究

中国竹子叶蝉区系、分类及DNA条形码研究

炭/铜合金体系的界面形成和润湿机制

M细胞岛形分布特征与折返激动易损性关系的定量心脏电生理研究

抗癫痫药物对生后未成熟脑学习记忆影响的机制研究及雌二醇的保护作用

人工林桉木超临界CO2干燥热质传递规律及皱缩抑制机制

基于周细胞募集信号探讨补阳还五汤维持血脑屏障完整性防治Alzheimer病的机制

基于CuInS2固态量子点敏化太阳电池的构建及界面载流子动力学的研究

基于药物代谢组学方法研究益气活血中药有效部位配伍增强阿司匹林抗血小板作用的机理

Na+/H+ 逆向转运蛋白提高浮萍镉胁迫抗性的机制研究

基于样点代表性等级的采样设计方法及其在土壤空间分布推测中的应用

利用靶向神经移植术重建缺失肢体运动神经信息源及机制研究

用于脑卒中早期检测与快速鉴别的多频电阻抗谱识别成像算法研究

全氟化合物前体物质胎儿、婴儿暴露途径与体内代谢转化研究

基于盲源分离和神经网络的舱音记录器非话语信号分离与识别基础研究

西南地区竹子叶蝉类昆虫的物种多样性研究

相似国自然基金