Speech separation is an important and basic task of machine hearing, single channel speech separation, especially unsupervised single-channel speech blind source separation method, is the most difficult problems in speech separation. Through the analysis of the classical computational auditory scene analysis of CASA method, it is found that the time-frequency unit inflexibility problem and the defect of its frequency domain resolution are not high, In view of the existing problems, we propose NSP-CASA method based on Null space pursuit to give NSP time-frequency expression. To simulate the human auditory process, after a period of preprocessing of speech data, the multi-pitch information or multi-voice characteristics (such as resonance peak information) are obtained,and then, by using the prior information constraint of these fundamental frequency or speech characteristics, an NSP set operator with adaptive decomposition attribute will be constructed to realize high resolution speech separation. The results of pre-research show that NSP design and implementation with narrow band and determined frequency constraint are feasible technology ideas. This method can be applied to the automatic speech separation and recognition of simultaneous voice environment, human voice and music sound separation, voice denoising, the application of intelligent hearing aid, and the web-based multimedia retrieval, It has an important and extensive application prospect.
语音分离是实现机器听觉的一个重要而基础性的任务,单通道语音分离,特别是无监督的单通道语音盲源分离方法,是语音分离中最为困难的问题。我们通过对经典的计算听觉场景分析CASA方法的研究发现其存在时频表达的时频单元僵化问题以及其频域分辨率不高的缺陷,针对其存在的问题,我们提出了基于零空间追踪NSP时频表达的NSP-CASA方法,拟模拟人类的听觉过程,先经过一段时间的语音数据预处理,得到其中所包含的多基频信息或多语音特征(例如共振峰信息),利用这些基频或语音特征的先验信息约束,去构造具有自适应分解属性的基于先验信息约束的NSP集合算子,以实现高分辨率的语音分离。预研的结果表明,应用窄带和确知频率约束的NSP设计与实现是可行的技术思路。 该方法可以应用于多人同时发声环境的自动语音分离和识别,人声和音乐声分离,语音去噪,智能助听器的应用,以及基于网络的多媒体检索;具有重要而广泛的应用前景
我们首先完成了基于小波/基于同步压缩小波变换/VMD的双说话人基频提取及识别,可以有效提取混合语音的基频信息和帧属性信息,为后续的单通道语音分离提供具有先验信息的指导;其次我们完成了基于确知频率的NSP(α-NSP)分解方法的研究;完成了基于α-NSP方法的单通道语音分离研究;更进一步的针对语音信号准周期谱约束的特点,我们完成了针对语音信号本质分解的基于多算子和频谱约束的MOSC-NSP (Multi-Operator and Spectrum Constraint based NSP)分解方法研究;在MOSC-NSP 分解方法的基础上, 应用集合MOSC-NSP算子,我们进行了双说话人语音分离研究;实验结果表明,该方法最高可实现SAR (Signal to Artifact Ratio,信号伪像比)为 7.33dB,SIR(Signal to Interference Ratio,信号干扰比)为6.69dB,SDR(Signal-to-distortion ratio,信号失真比)为6.58的分离效果,优于经典的CASA/NMF等单通道语音分离方法。同时为了参照对比,我们开展了基于深度学习的单通道语音分离方法研究,着重于研究不同结构的深度学习神经网络和深度网络自编码解码的相关构架,取得了非常好的单通道语音分离效果。深度网络方向的研究,给我们在信号的特征提取、特征空间的表达方向提供了更深刻的理解和更广阔的更有效的技术手段;而NSP相关的分解方法研究成果,给我们提供了信号及语音信号本质分解的新的有效的工具。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于SSVEP 直接脑控机器人方向和速度研究
基于概率声管模型的单通道语音分离研究
基于压缩感知的单通道混合语音分离理论及算法研究
基于零空间追踪的信号自适应分解及其应用方法研究
基于非线性语音谱分析的单通道语音增强研究