基于零空间追踪的单通道语音分离方法研究

基本信息
批准号:61861005
项目类别:地区科学基金项目
资助金额:39.00
负责人:胡维平
学科分类:
依托单位:广西师范大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:胡晰远,莫家玲,傅得立,张一萱,陈丽婷
关键词:
计算听觉场景分析盲源分离单通道语音分离零空间追踪声信号处理
结项摘要

Speech separation is an important and basic task of machine hearing, single channel speech separation, especially unsupervised single-channel speech blind source separation method, is the most difficult problems in speech separation. Through the analysis of the classical computational auditory scene analysis of CASA method, it is found that the time-frequency unit inflexibility problem and the defect of its frequency domain resolution are not high, In view of the existing problems, we propose NSP-CASA method based on Null space pursuit to give NSP time-frequency expression. To simulate the human auditory process, after a period of preprocessing of speech data, the multi-pitch information or multi-voice characteristics (such as resonance peak information) are obtained,and then, by using the prior information constraint of these fundamental frequency or speech characteristics, an NSP set operator with adaptive decomposition attribute will be constructed to realize high resolution speech separation. The results of pre-research show that NSP design and implementation with narrow band and determined frequency constraint are feasible technology ideas. This method can be applied to the automatic speech separation and recognition of simultaneous voice environment, human voice and music sound separation, voice denoising, the application of intelligent hearing aid, and the web-based multimedia retrieval, It has an important and extensive application prospect.

语音分离是实现机器听觉的一个重要而基础性的任务,单通道语音分离,特别是无监督的单通道语音盲源分离方法,是语音分离中最为困难的问题。我们通过对经典的计算听觉场景分析CASA方法的研究发现其存在时频表达的时频单元僵化问题以及其频域分辨率不高的缺陷,针对其存在的问题,我们提出了基于零空间追踪NSP时频表达的NSP-CASA方法,拟模拟人类的听觉过程,先经过一段时间的语音数据预处理,得到其中所包含的多基频信息或多语音特征(例如共振峰信息),利用这些基频或语音特征的先验信息约束,去构造具有自适应分解属性的基于先验信息约束的NSP集合算子,以实现高分辨率的语音分离。预研的结果表明,应用窄带和确知频率约束的NSP设计与实现是可行的技术思路。 该方法可以应用于多人同时发声环境的自动语音分离和识别,人声和音乐声分离,语音去噪,智能助听器的应用,以及基于网络的多媒体检索;具有重要而广泛的应用前景

项目摘要

我们首先完成了基于小波/基于同步压缩小波变换/VMD的双说话人基频提取及识别,可以有效提取混合语音的基频信息和帧属性信息,为后续的单通道语音分离提供具有先验信息的指导;其次我们完成了基于确知频率的NSP(α-NSP)分解方法的研究;完成了基于α-NSP方法的单通道语音分离研究;更进一步的针对语音信号准周期谱约束的特点,我们完成了针对语音信号本质分解的基于多算子和频谱约束的MOSC-NSP (Multi-Operator and Spectrum Constraint based NSP)分解方法研究;在MOSC-NSP 分解方法的基础上, 应用集合MOSC-NSP算子,我们进行了双说话人语音分离研究;实验结果表明,该方法最高可实现SAR (Signal to Artifact Ratio,信号伪像比)为 7.33dB,SIR(Signal to Interference Ratio,信号干扰比)为6.69dB,SDR(Signal-to-distortion ratio,信号失真比)为6.58的分离效果,优于经典的CASA/NMF等单通道语音分离方法。同时为了参照对比,我们开展了基于深度学习的单通道语音分离方法研究,着重于研究不同结构的深度学习神经网络和深度网络自编码解码的相关构架,取得了非常好的单通道语音分离效果。深度网络方向的研究,给我们在信号的特征提取、特征空间的表达方向提供了更深刻的理解和更广阔的更有效的技术手段;而NSP相关的分解方法研究成果,给我们提供了信号及语音信号本质分解的新的有效的工具。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

胡维平的其他基金

批准号:30670351
批准年份:2006
资助金额:31.00
项目类别:面上项目
批准号:61062011
批准年份:2010
资助金额:19.00
项目类别:地区科学基金项目
批准号:51279193
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:40271100
批准年份:2002
资助金额:28.00
项目类别:面上项目
批准号:41230853
批准年份:2012
资助金额:300.00
项目类别:重点项目
批准号:61362003
批准年份:2013
资助金额:43.00
项目类别:地区科学基金项目

相似国自然基金

1

基于概率声管模型的单通道语音分离研究

批准号:61473168
批准年份:2014
负责人:欧智坚
学科分类:F0605
资助金额:83.00
项目类别:面上项目
2

基于压缩感知的单通道混合语音分离理论及算法研究

批准号:61302152
批准年份:2013
负责人:郭海燕
学科分类:F0111
资助金额:24.00
项目类别:青年科学基金项目
3

基于零空间追踪的信号自适应分解及其应用方法研究

批准号:61062011
批准年份:2010
负责人:胡维平
学科分类:F0111
资助金额:19.00
项目类别:地区科学基金项目
4

基于非线性语音谱分析的单通道语音增强研究

批准号:61302126
批准年份:2013
负责人:王杰
学科分类:F0117
资助金额:23.00
项目类别:青年科学基金项目