基于深度神经网络的说话人分离和识别算法的研究

基本信息

批准号：61866024

项目类别：地区科学基金项目

资助金额：39.00

负责人：张烨

学科分类：

依托单位：南昌大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：吴建华,张文全,谢新文,王蒙蒙,郭鹏,林婷,郭志楷,牛梦蝶,郑雷

关键词：

深度神经网络说话人识别学习稀疏变换特征提取说话人分离

结项摘要

Recently, speaker recognition technology has become steadily more present in everyday life, as seen by the proliferation of applications including bank and mobile personal agents, etc. Performance of these systems, however, degrades significantly in the presence of background noise and other speakers. Compensation for noise typically involves preprocessing the acoustic signal to separate the speech signal of a target speaker from these mixtures, and then feeding this processed input into the recognizer. This project seeks to make Deep Neural Network (DNN) more resistant to noise by integrating speech separation and speaker recognition. The first research area seeks to estimate the space features of the speaker, and explore speaker unsupervised separation and supervised separation algorithms with the space features and the acoustic features on the base of DNN. The second area seeks to select the data for training the DNN to extract speaker’s deep features. The final research area examines ways for speaker recognition based on DNN. With the focus of integrating speech separation and speaker recognition, the project will train the separation and recognition systems in an integrated manner so that the speech feature of the recognized speaker can inform the separation. This has great theoretical significance and practical value for speaker recognition.

近年来，说话人识别技术在人们日常生活中的应用日趋广泛，在银行、移动业务处理等领域具有广泛的应用前景。但在噪声干扰环境中，由于噪声和其他说话人声音的干扰，说话人识别系统的性能会显著下降。为提高说话人识别系统的性能，须对说话人的声音信号做预处理，如将声音信号先分离出来，然后再识别。本项目主要研究基于深度神经网络(Deep Neural Network，DNN)的说话人分离和识别的算法。研究基于DNN的说话人空间特征的估计算法，利用说话人的空间特征和声纹特征，研究说话人无监督和有监督的分离方法；研究DNN特征提取器训练数据的构建方法以及说话人深度特征的提取算法；研究DNN说话人判决模型的设计方法。将说话人的分离和识别集成一整体，利用声纹特征提高分离系统的性能，联合优化整个系统，为说话人识别技术的实用化提供具有理论意义和实际价值的研究成果。

项目摘要

本项目针对复杂声场环境下，说话人有监督和无监督分离和提取、声纹深度特征的提取和融合、说话人模型构建等挑战性问题进行了深入的研究。主要内容包括：1) 提出了深度最近邻聚类算法实现语音混合信号的盲分离，并且设计了一种新的深度聚类自动编码器网络结构来实现说话人的无监督分离；针对共信道说话人识别，提出了一种基于时域卷积网络的目标说话人提取算法。2) 利用解析稀疏模型，提出了说话人的长时声学特征选取的方法；提出了基于独立向量分析和并行卷积神经网络的语音特征融合算法；基于门控并行卷积神经网络，提出了多尺度频域特征的提取和融合方法。3) 提出了基于语音信号稀疏表示的说话人的模型构建方案，并采用深度神经网络模型构建说话人识别分类器。提出了基于谱图增强和对抗学习的鲁棒说话人识别算法。课题组已发表学术论文9篇，其中SCI期刊论文5篇，EI论文1篇，申请中国发明专利2项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16383/j.aas.2016.c150880

发表时间：2016

DOI：

发表时间：2022

DOI：10.11821/dlyj201810008

发表时间：2018

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

DOI：10.3724/sp.j.1089.2022.19009

发表时间：2022

张烨的其他基金

批准号：31400974

批准年份：2014

资助金额：24.00

项目类别：青年科学基金项目

批准号：81702592

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：61162014

批准年份：2011

资助金额：36.00

项目类别：地区科学基金项目

批准号：81900087

批准年份：2019

资助金额：20.00

项目类别：青年科学基金项目

批准号：81900847

批准年份：2019

资助金额：21.00

项目类别：青年科学基金项目

批准号：81303099

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：41404109

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：11402308

批准年份：2014

资助金额：28.00

项目类别：青年科学基金项目

相似国自然基金

基于人工神经网络的说话人识别研究

批准号：69105001

批准年份：1991

负责人：张军英

学科分类：F0605

资助金额：4.00

项目类别：青年科学基金项目

人工神经网络说话人识别方法研究

批准号：69475007

批准年份：1994

负责人：迟惠生

学科分类：F0605

资助金额：5.50

项目类别：面上项目

基于信息几何的说话人标记算法研究

批准号：61403224

批准年份：2014

负责人：何亮

学科分类：F0605

资助金额：25.00

项目类别：青年科学基金项目

基于迁移学习的跨信道说话人识别研究

批准号：61105026

批准年份：2011

负责人：洪青阳

学科分类：F0605

资助金额：24.00

项目类别：青年科学基金项目

基于深度神经网络的说话人分离和识别算法的研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于SSVEP 直接脑控机器人方向和速度研究

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

基于细粒度词表示的命名实体识别研究

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

张烨的其他基金

识别电位认知本质和神经定位研究

KU55933和KU60019对三阴性乳腺癌上皮间质转化的抑制作用及其机制的研究

基于视听觉信息融合的欠定卷积语音混合信号盲分离及其在机器人听觉系统中应用的研究

阻塞性睡眠呼吸暂停与创伤后应激障碍共病的神经生物学机制

利用虹膜动态变化及数学模型建立原发性闭角型青光眼早期筛查策略的研究

理虚解郁方及各方药组分对CFS生物节律基因及HPA轴效应激素调控靶点的研究

各向异性地层中套管井间电磁响应的三维耦合势GPU并行正演研究

民机复合材料结构抗冰雹多点/重复冲击性能研究

相似国自然基金