Speaker recognition, also known as voiceprint recognition, can be widely used in many areas and has a strategic significance for both public security and national defense security. The voiceprint of a speaker changes with time, which is called the time-varying phenomenon of voiceprint. In this project, the voiceprint features are studied to address this issue and improve the time-varying robustness of speaker recognition technologies. A voiceprint database, specific for in-depth study on the time-varying issue, will be created. By using the F-ratio idea and the data driven methodology, effects of parameters based on frequency band energies and area ratios of adjacent tubes in the vocal tract model, on discrimination of speaker-specific information and stability of its probability distribution will be explored, and furthermore, a formula to calculate the degree of time-varying robustness in speaker recognition will be proposed. Various modification methods will be tested on feature calculation including tube merging, frequency warping, and amplitude weighting, combined with the mechanism of speech production and perception of humans. Also, a criterion to determine degree of time-varying robustness in the voiceprint features level will be proposed to guide feature selection and fusion. Finally a prototype system will be implemented to verify the correctness and effectiveness of proposed voiceprint features in speaker recognition with long time spans.
说话人识别应用广泛,对于公共安全和国防安全等都有重要的战略意义。随着时间的推移,人的声纹会发生变化,从而严重影响说话人识别的精度,这就是声纹的时变现象。本项目针对这一现象,从声纹特征入手,研究说话人识别的时变鲁棒性问题。项目拟建设一个支持深入研究声纹时变性的语音数据库。在此数据库基础上采用数据驱动的方法,参照F比率的思想,探索人类语音基于频带能量的参数和基于声道模型短管截面积比的参数在说话人个体的区分度和概率分布稳定性上的规律,研究用于说话人识别的时变鲁棒性准则的计算公式;结合发声机理和听觉机理,通过短管合并、频率弯折、幅度加权等方式修改语音特征的计算方法,得到时变鲁棒的声纹特征提取算法;研究不同声纹特征时变鲁棒性优劣的判别准则,以指导声纹特征的选取与融合;构建原型系统,对所研究的声纹特征提取算法的正确性和有效性进行验证。
随着说话人识别技术的发展,说话人识别在现实生活中的各个领域得到了广泛的应用。然而,随着时间的推移,人的声纹信息会发生变化,而这种变化严重影响了说话人识别系统的准确性,这就是声纹中存在的时变现象。.本项目针对声纹时变问题开展了一系列研究。首先,调研了国内外现有的声纹时变研究方法,并确定了关于说话人识别时变声纹特征鲁棒性的研究方向。第二,为了更好地分析声纹时变现象和验证方法的有效性,项目建设了两套声纹时变语音数据库;其录制原则为“尽最大可能保证时间是唯一变化因素”。两套数据库分别录制于实验室环境和户外实际应用场景下,其一方面用于声纹时变现象的科学研究,另一方面用于研究成果与实际应用的转化。第三,针对时变说话人识别系统,本项目提出了一套衡量时变鲁棒性的重要评价指标。第四,从信号域的角度出发,提出了基于频带能量的F-ratio为中间准则来计算各个频带的时变区分度。从特征域,重点探讨了两种提高时变鲁棒性的特征提取算法。从人体的发声机理和人耳的听觉响应出发,提出了频带弯折和滤波器加权的两种特征提取算法;前者是通过调整滤波器的分辨率来强调或弱化相应频带,后者是通过直接对滤波器的输出进行加权来强调或弱化相应频段。研究结果表明,两种特征提取算法均极大地解决了声纹时变问题,并取得了时变错误率相对值11.87% (Mean)和21.01% (StDev)的下降。最后,结合科研成果,针对声纹时变问题,构建了基于时间窗管道的说话人识别原型系统。在原型系统设计过程中,为了提高其在实际应用环境下的识别鲁棒性,项目还陆续开展了基于短语音、跨语言、情感、语速等说话人识别鲁棒性研究。.本项目不仅从科学研究的角度探究了声纹时变问题,还实现了科学研究的成果转化。目前,本项目开发的说话人识别原型系统已在公共服务、国防安全、商业金融等领域有着广泛地应用,为国家信息安全和人民财产安全提供了重要的保障。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
声纹识别中合成语音的鲁棒性研究
噪声环境下基于多域信息融合的说话人识别鲁棒性研究
声纹识别与音频检索耦合的文本无关的多说话人辨认方法研究
基于模型自适应修正和协同决策的说话人鲁棒语音情感识别方法研究