近年来张量语音分离已成为语音增强领域新的研究热点。与矩阵框架下的传统语音分离相比,张量运算能更好地挖掘频域语音二阶统计量在空-时域的多维结构,因此张量语音分离在可唯一辨识性、环境参数变化下的稳定性等方面具有明显优势。然而,现有的张量模型未能完整反映频域语音二阶统计量在空-时域的多维结构,而且张量语音分离仍面临由频点顺序模糊带来的巨大挑战。此外,部分频点上由张量"病态"结构导致的收敛困难,及特定语音的快速抽取,也是现有张量语音分离方法未能解决的重要问题。为此,本项目将深入研究一种极具潜力的语音分离方法:几何约束张量语音半盲分离,通过从语音观测中提取的粗略几何信息对张量语音分离进行约束,解决顺序模糊问题,并进一步提高分离性能。本项目的研究不仅能有效推动张量语音分离方法的发展,还将为我国解决智能信息系统、计算机感知、无人驾驶等关键技术中的语音处理难题提供理论支撑,具有重要的理论价值和实用前景。
语音分离一直是语音信号处理的核心内容之一。由于语音在时域体现出高阶线性卷积混合形式,难以直接求解,频域语音分离得到了越来越多的关注。特别地,随着张量等高维数学工具越来越多地被应用至盲源分离之中,基于张量分解的频域语音分离成为近些年来的研究热点。频域语音分离在关键在于利用不同频点信号间的相关性,在实现语音成分分离的同时对之进行顺序对齐。现有的基于张量分解的语音分离方法通常将不同频点的信号看作是孤立的混合观测,分别进行盲分离之后再基于信号之间的相关性进行顺序对齐,其张量模型并未充分刻画频域语音信号的特性,在方法上缺乏对几何先验知识的刻画和利用,在半盲语音抽取方面也存在不足。因此,本项目工作正是针对上述问题而展开的。主要内容包括,能够充分刻画频域语音信号统计特性的张量模型研究,具有定序分解能力的几何约束张量分解方法及其在语音半盲分离中的应用研究,几何约束下语音信号的半盲抽取方法研究。.项目负责人及所在团队针对上述内容进行了深入研究,建立了频域语音信号的联合张量分解模型,提出了广义联合对角化,联合典范多因子分解,张量联合对角化等用于进行联合张量分解的算法及其快速算法,并将之成功用于实际语音的半盲分离之中;提出了三种非正交联合对角化算法,两种结合统计独立性约束的张量分解方法;与此同时,深入研究了几何或波形约束下的语音半盲抽取方法,并在实际语音的分离实验中获得了较好的性能。发表12篇论文(SCI检索1篇,EI检索6篇),另有1篇已投往IEEE Trans. Signal Processing(审稿意见为小修后录用),圆满完成了研究任务,达到了预期目标。特别地,项目成果频域语音信号在二阶统计域的联合张量分解结构,以及该结构与广义联合对角化,互耦典范多因子分解,张量联合对角化等方法的内在联系,在实际语音分离实验中显著改善了语音分离张量方法的性能,因此具有重要的理论意义与实用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
五轴联动机床几何误差一次装卡测量方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于耦合张量分解的多数据集联合盲分离方法研究
混合语音的盲分离方法研究
面向自然环境下语音增强的复数域半盲分离方法研究
基于几何约束的人物合成盲检测方法研究