This project conducts novel studies on speaker diarization based on the theory of information geometry to improve system performance and robustness. Speaker diarization which answers “who speak when?” is a type of speech annotation task and an important upstream component for most speech recognition systems. It has a wide application in the field of information retrieval, speech monitoring and so on. The main contents of this project cover: (1) propose a speaker diarization algorithm framework and analyze its core problem based on the theory of information geometry. (2) estimate statistical model parameters by variational Bayesian method. (3) solve the computation of Fisher information matrix and calculate the similarity of adjacent statistical models on a statistical manifold subsequently. (4) construct a discriminant mapping matrix by within-and-between class points. (5) study the use of “soft information” on the procedures of segmentation and clustering. (6) perform system fusion strategy based on multiple Logistic regression algorithm. The project is to build an application oriented system from the theoretical fruits and carry out experiments on NIST RT and NIST SRE database. The results are expected to reach international leading level.
本项目基于信息几何理论对说话人标记算法进行创新性研究,以提高说话人标记系统的识别正确率和鲁棒性。说话人标记是回答“who speak when”的语音标记任务,是语音识别系统中重要的前端处理部分,在信息检索、语音监控等领域有广泛应用。本项目的研究内容包括:(1)分析说话人标记系统的核心问题,并基于信息几何理论提出说话人标记算法;(2)基于变分贝叶斯估计的统计模型参数估计算法;(3)解决Fisher信息矩阵的计算方法,并依此度量统计流形上近邻统计模型的相似程度;(4)根据同类点和异类点,求解鉴别式的映射矩阵;(5)研究“软信息”在分割、聚类过程的应用;(6)研究基于多类Logistic回归的多系统融合策略。在理论研究的基础上,构建面向实用的说话人标记系统。在NIST RT和NIST SRE数据库上实验,预期结果达到国际领先水平。
. 说话人标记旨在解决语音流中谁在什么时候(Who speak when)说话的问题,在自动语音检索、多人会议场景和说话人相关的自动语音识别等方面具有广泛应用。.. 本项目围绕说话人标记问题,在理论层面,对信息几何、变分贝叶斯估计、潜在类别分析和深度神经网络进行研究,提出了PRISM框架、鉴别式局部信息距离保持映射、潜在类别分析、深度神经网络-支持向量机和深度神经网络-峰值密度等算法;在应用层面,对相关的活动语音检测、语音增强、说话人识别和语种识别方向进行研究,提出了长时Pitch散度特征、约束补偿拉普拉斯、深度神经网络-计算听感知相关模型、多粒度深度神经网络、基于无监督数据训练深度神经网络以及深度神经网络-隐含马尔科夫模型等算法。.. 与传统算法相比,本项目提出的最优算法——潜在类别分析-总体变化空间-混合迭代(LCM-Ivec-Hybrid)算法,结构简单,物理意义明确,在国际权威的NIST RT09说话人标记单声道(SDPK SDM)数据库上,与经典的VB系统相比,有43.0%的相对性能提升,是我们目前已知文献中,识别错误率最低的算法(说话人错误,5.9%,说话人标记错误,17.8%),其技术指标已经达到国际领先水平。基于本项目,实验室研发相关的说话人识别,在NIST SRE 2016,INTCC联队的最小检测代价是评测单位中第三名;实验室研发的相关语种识别,在NIST LRE 2015,THUEE团队的最小检测代价是评测单位中第四名。.. 对说话人标记的研究具有重要的科学意义。说话人标记隶属于时间序列分类问题,涉及多个学科,如信息论、泛函分析、数字信号处理、模式识别和信息几何等。对该问题的深入研究,不仅可以深化相关理论基础,扩展相关理论应用,也能为相关领域研究,例如,视频识别、智能交通等,提供解决思路。.. 基于本项目研发成果,实验室与华为公司合作。据华为公司反馈,华为2018年发布的手机,将搭载实验室提供的说话人标记系统。实验室与江苏公安合作,使用该技术追捕带有3条命案的杀人犯,该项工作正在进行中。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
五轴联动机床几何误差一次装卡测量方法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于深度神经网络的说话人分离和识别算法的研究
噪声环境下基于多域信息融合的说话人识别鲁棒性研究
基于分布式声传感器网络和量子优化学习的说话人分类标记研究
基于迁移学习的跨信道说话人识别研究