In modern society, with the rapid growth of speech data, text-independent multi-speaker identification in a complex environment where multiple people speak simultaneously faces the following challenges: the accuracy of feature model is low, and the efficiency of identification is also low. Voiceprint recognition and audio retrieval are two kinds of pattern recognition problems with different emphasis. Voiceprint recognition focuses on the accuracy of feature modeling while audio retrieval focuses on retrieval efficiency. Consequently, it is feasible to combine voiceprint recognition and audio retrieval to solve the problem of fast and accurate multi-speaker identification. This project will deal with the two major challenges faced by multi-speaker identification, and systematically carry out researches on related theories and methods. Specific contents include: (1) Establish a relationship model between single speaker identity feature and multi-speaker mixed feature to ensure the accuracy of multi-speaker identification; (2) Propose an index-based filtering retrieval method for multi-speaker features to improve the efficiency of multi-speaker identification; (3) Use large speech data as a carrier to realize the application demonstration of multi-speaker recognition system. This project focuses on the two core scientific issues of multi-speaker identification, and will form a set of related theories and methodologies for multi-speaker identification, which has important theoretical significance and application value.
目前,随着语音数据量的快速增长,在多人同时说话的复杂环境下,文本无关的多说话人辨认研究面临以下挑战:一是特征模型的准确率低,二是辨认的效率低。声纹识别和音频检索可以看作两种侧重点不同的模式识别问题,声纹识别注重特征建模准确率,音频检索注重检索效率。因此,结合声纹识别与音频检索,以实现快速、准确的多说话人辨认是可行的。本项目将应对多说话人辨认面临的两个主要挑战,系统开展相关理论与方法的研究。具体内容包括:(1)建立单人身份特征与多人混合特征之间的关系模型,保证多说话人辨认的准确率;(2)提出针对多说话人特征的基于索引的过滤检索方法,提高多说话人辨认的效率;(3)以语音大数据为载体,实现多说话人身份识别系统的应用示范。本项目重点研究多说话人辨认的两大核心科学问题,将形成一套多说话人辨认相关的研究理论与方法体系,具有重要的理论意义和应用价值。
针对复杂的语音大数据环境,说话人识别研究主要面临以下挑战:一是特征模型的准确率低,二是辨认的效率低。项目组从声纹识别和音频检索两方面出发,查阅相关研究资料,系统开展相关理论与方法的研究。具体内容包括:(1)收集相关语音数据。一方面,收集相关的公开数据集;另一方面,开发了一个基于微信小程序的声纹信息采集系统,用于录制各种环境状态下的说话人语音。(2)探索身份特征模型。提出了一种基于不确定性学习的文本无关的说话人确认方法;提出了一种基于语音质量和说话人验证难度的自适应加权损失,并基于此损失实现了一种说话人识别方法;探索多特征的关系建模与特征融合方法,提出了特征的表示、关联与融合策略。(3)探索了音频特征的检索方法,提出了一种抗频率变换的音频检索方法。(4)实现身份认证系统的应用示范。实现了一套声纹识别和语音密码双重验证的智能身份认证系统;提出一种基于声纹与指纹的智能声纹门锁;提出一种基于声纹和脑电的智能密码控制装置。说话人的身份特征建模是本研究的重点与难点,在一些更普遍的复杂真实场景中,模型的准确性和泛化性会变差,另一方面,特征的准确性也会限制检索的效果,因此,未来还需要继续研究,以进一步提升说话人识别模型的性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
会议音频中的声学事件检测及说话人分析方法研究
说话人电子变调伪装识别取证及音频变调取证
文本无关的语音转换方法研究
基于深度学习的复杂音频说话人分析关键技术研究