基于深度神经网络的说话人分离和识别算法的研究

基本信息
批准号:61866024
项目类别:地区科学基金项目
资助金额:39.00
负责人:张烨
学科分类:
依托单位:南昌大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:吴建华,张文全,谢新文,王蒙蒙,郭鹏,林婷,郭志楷,牛梦蝶,郑雷
关键词:
深度神经网络说话人识别学习稀疏变换特征提取说话人分离
结项摘要

Recently, speaker recognition technology has become steadily more present in everyday life, as seen by the proliferation of applications including bank and mobile personal agents, etc. Performance of these systems, however, degrades significantly in the presence of background noise and other speakers. Compensation for noise typically involves preprocessing the acoustic signal to separate the speech signal of a target speaker from these mixtures, and then feeding this processed input into the recognizer. This project seeks to make Deep Neural Network (DNN) more resistant to noise by integrating speech separation and speaker recognition. The first research area seeks to estimate the space features of the speaker, and explore speaker unsupervised separation and supervised separation algorithms with the space features and the acoustic features on the base of DNN. The second area seeks to select the data for training the DNN to extract speaker’s deep features. The final research area examines ways for speaker recognition based on DNN. With the focus of integrating speech separation and speaker recognition, the project will train the separation and recognition systems in an integrated manner so that the speech feature of the recognized speaker can inform the separation. This has great theoretical significance and practical value for speaker recognition.

近年来,说话人识别技术在人们日常生活中的应用日趋广泛,在银行、移动业务处理等领域具有广泛的应用前景。但在噪声干扰环境中,由于噪声和其他说话人声音的干扰,说话人识别系统的性能会显著下降。为提高说话人识别系统的性能,须对说话人的声音信号做预处理,如将声音信号先分离出来,然后再识别。本项目主要研究基于深度神经网络(Deep Neural Network,DNN)的说话人分离和识别的算法。研究基于DNN的说话人空间特征的估计算法,利用说话人的空间特征和声纹特征,研究说话人无监督和有监督的分离方法;研究DNN特征提取器训练数据的构建方法以及说话人深度特征的提取算法;研究DNN说话人判决模型的设计方法。将说话人的分离和识别集成一整体,利用声纹特征提高分离系统的性能,联合优化整个系统,为说话人识别技术的实用化提供具有理论意义和实际价值的研究成果。

项目摘要

本项目针对复杂声场环境下,说话人有监督和无监督分离和提取、声纹深度特征的提取和融合、说话人模型构建等挑战性问题进行了深入的研究。主要内容包括:1) 提出了深度最近邻聚类算法实现语音混合信号的盲分离,并且设计了一种新的深度聚类自动编码器网络结构来实现说话人的无监督分离;针对共信道说话人识别,提出了一种基于时域卷积网络的目标说话人提取算法。2) 利用解析稀疏模型,提出了说话人的长时声学特征选取的方法;提出了基于独立向量分析和并行卷积神经网络的语音特征融合算法;基于门控并行卷积神经网络,提出了多尺度频域特征的提取和融合方法。3) 提出了基于语音信号稀疏表示的说话人的模型构建方案,并采用深度神经网络模型构建说话人识别分类器。提出了基于谱图增强和对抗学习的鲁棒说话人识别算法。课题组已发表学术论文9篇,其中SCI期刊论文5篇,EI论文1篇,申请中国发明专利2项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

张烨的其他基金

批准号:31400974
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:81702592
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:61162014
批准年份:2011
资助金额:36.00
项目类别:地区科学基金项目
批准号:81900087
批准年份:2019
资助金额:20.00
项目类别:青年科学基金项目
批准号:81900847
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:81303099
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:41404109
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:11402308
批准年份:2014
资助金额:28.00
项目类别:青年科学基金项目

相似国自然基金

1

基于人工神经网络的说话人识别研究

批准号:69105001
批准年份:1991
负责人:张军英
学科分类:F0605
资助金额:4.00
项目类别:青年科学基金项目
2

人工神经网络说话人识别方法研究

批准号:69475007
批准年份:1994
负责人:迟惠生
学科分类:F0605
资助金额:5.50
项目类别:面上项目
3

基于信息几何的说话人标记算法研究

批准号:61403224
批准年份:2014
负责人:何亮
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
4

基于迁移学习的跨信道说话人识别研究

批准号:61105026
批准年份:2011
负责人:洪青阳
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目