语音信息处理在社会、经济和国家安全等领域扮演着重要角色。例如,在关乎国家安全和社会发展的计算机感知与决策、无人驾驶等关键技术中,必须进行自然环境下的语音识别和内容理解等处理。然而,目前语音信息处理存在着性能瓶颈,致使我国在这些关键技术上与世界先进水平存在差距。因为自然环境下语音处理面临的最大挑战是复杂多样的干扰,而当前的语音增强(消噪)性能不令人满意,如最具潜力的频域语音盲分离方法也存在对环境敏感等问题,本项目拟提出更为有效的语音增强方法,帮助解决语音信息处理的瓶颈困难。主要通过研究频域语音特性、提取和利用与环境无关的语音信息,提出一系列频域语音分离的复数域半盲分离算法,在环境变化下表现良好的语音信噪比、可懂度和稳定性。本项目的完成在理论上能有力推动盲源分离和半盲分离在复数域的发展,在应用上能为语音信息处理提供稳定纯净的语音信号,进而促进我国计算机感知与决策、无人驾驶等关键技术的迅速发展。
频域盲分离是一种颇具潜力的语音增强方法,但存在着部分频点分离失败、对环境敏感等问题。本项目通过研究语音的频域特性,提出了一系列利用语音特性且对环境鲁棒的复数域半盲分离算法。主要研究成果有:(1)描述了频域语音的非环形性及其与环境之间的关系,表明处于低混响环境时,频域语音为环形信号;而处于高混响环境时,为环形和非环形信号的混合信号。与非高斯性相比,非环形性估计在短数据和高噪声情况下仍具有较高的准确度和稳定性。(2)提出并证明了两个引理,一是关于信号矢量及其成分之间的环形性关系,二是从可观测的混合信号非环形度推断未知源信号非环形度的方法。这两个引理为非环形性的定性和定量应用提供了理论基础。(3)提出了应用语音非环形度的自适应分离算法,实现了短数据、高混响下语音分布的鲁棒估计和性能提升。(4)基于相邻频点语音幅值的相关性,给出了由混合语音或说话人其他语音构建参考信号的方法,定义了区分度更优的能量相关和夹角余弦距离函数,提出了集语音分离和顺序模糊性消除于一体的半盲分离算法,使分离信噪比和效率均得到提高。(5)提出了一种分频段语音分离算法,根据复峭度确定语音的分频段原则,基于语音非环形性切换负熵最大化算法的非线性函数,性能优于无频段区分算法。(6)根据乘以任意复常量后复变量间Hermitian角保持不变的特性,针对语音数目大于麦克风数目的欠定情况,提出了利用语音波达方向的半盲抽取和分离算法,改进了输出语音的信噪比和可懂度。(7)在标准张量分解算法上增加了频点互相关或空间平行因子约束,探索了语音分离的约束张量分解方法,能解决乱序问题且提高分离性能。(8)基于FPGA完成了语音分离的SOPC硬件。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
低轨卫星通信信道分配策略
基于分形维数和支持向量机的串联电弧故障诊断方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
基于几何约束张量分解的语音半盲分离方法研究
混合语音的盲分离方法研究
基于子带和盲源分离理论的三通道语音增强新方法研究
机械振动本底源信号半盲分离与重建方法的研究