One of fetters to perplex speech recognition applications is background noise cancelation while conventional speech enhancement algorithms are hard to handle unstable noise, for example, background noise of speech, however speech seperation approach with computational auditory scene analysis(CASA) provides a well potential way. The available CASA systems are divided roughly into two categories, namely data driven based and schema driven based, to which the former emphasezes bottem up mechanism by utilizing primitive acoustic cues, while the latter stresses top dowm processing way of human learning ability. Up to now it is short of CASA system to cooperate two kinds of processing mechanism efficiently. Base on the fact that human auditory perception system is an organic integrity with the existence of both two processing ways, a CASA novel methed of speech separation is presented based on both data driven and schema driven in the proposal.The goal is to conquer the flaw of single driven style in the available CASA system and promotes CASA technology leapfrog development. The main research contents include kernel groundwork of data driven policy such as multipitch extraction and grouping strategy in data driven, crucial points of schema driven way such as machine learning or classifying model, and efficient fusion algorithm for both data driven and schema driven,and so on . The reseach is very important and with academic value for the key technologies in the field of digital media such as multimedia retrieval, acoustic target retrieval, speech enhancement and robust speech recognition etc.
困扰语音识别走向实用的羁绊之一是噪声消除问题,而传统的语音增强方法难以应对非平稳噪音,如:人声背景噪声,计算听觉场景分析(CASA)的语音分离方法提供了一条颇具潜力的解决途径。现有CASA系统大致分为基于数据驱动和基于模式驱动两种方式,数据驱动偏重强调利用底层声学线索的自下而上的处理机制;而模式驱动则强调利用人的学习机制的自上而下的处理方式,迄今缺少有效融合两种方式的CASA系统。事实上,人的听觉感知系统是两种方式并存的有机整体,基于此,本项研究提出基于数据和模式双驱动的CASA语音分离新方法,旨在克服现有系统单一驱动的缺陷,使CASA技术获得跨越发展。主要研究内容包括:数据驱动核心基础的多基频提取和组织方法、模式驱动关键环节的学习和分类模型、以及数据和模式双驱动的有效融合方法等。本项研究对于数字媒体领域的多媒体检索、声学目标检索、语音增强、鲁棒性语音识别等关键技术具有重要意义和学术价值。
主要进展和成果包括:提出了 CASA 的一种最优计算目标,由于该目标通过最大化分离语音的信噪比(SNR)增益获得,故此称之为最优比率掩蔽(ORM)。在 AWDO条件下(由于语音的稀疏性,该条件几乎总成立),理论分析表明:最优比率掩蔽 ORM 比理想比率掩蔽可以提高信噪比增益 SNR 约 10LOG102DB。真实环境干扰的语音分离实验的信噪比增益和主观评价结果证明了理论分析的正确性,同时也意味着 ORM 方法取得了更好语音分离性能。.对于 CASA 语音分离而言,理想二值掩蔽(IBM)可以看作从维纳滤波推演出来的理想比率掩蔽(IRM)的简化形式。现有方法一般是从语音可懂度方面证实这种简化的合理性,而未从信噪比增益方面严格分析两种掩蔽效应的差异。为此在AWDO(APPROXIMATE W-DISJOINT ORTHOGONALITY)条件下(由于语音的稀疏性,该条件几乎总是成立),我们从理论上研究了两种理想掩蔽的差异性,给出了一个在 AWDO 条件下的两者差异的理论上界,并获得了一种在 AWDO 条件下比 IRM 信噪比增益更高的新的比率掩蔽,以及不同 AWDO 的等级水平值与信噪比增益的本质关系等一些有益的研究发现。.听觉场景分析中的 IBM 估计是其解决问题的核心,模式驱动以往大多采用统计学习的方法,贝叶斯方法是其典型的代表之一,但现有方法的不足之处是其对(T-F)时频单元的独立性假设,未考虑时频单元之间的关联性。为此我们从两个方面入手利用局域关联信息提高分离性能:一方面,根据属于同一片段的单元来自同一声源这一被证实的假设,直接建立一个势函数表征邻域 T-F 单元掩蔽标识的关联性;另一方面,参考一时段的局域噪音水平跟踪信息,通过对一些相邻单元的噪声水平求平均值获得时频单元的真实噪音能量,该手段可以看作引入中间辅助变量表征局域关联性。在忽略次要的因素的条件下,用蒙特卡罗马尔柯夫链(MCMC)方法模拟高维后验分布,在循环迭代过程中,计算接受率充分考虑了局域关联信息,IBM 估计值由期望值获得。与已有贝叶斯方法的语音分离系统相比,所提方法无论在 HIT-FA 率还是 SNR 增益等方面都获得本质提高。本项研究对于数字媒体领域的多媒体检索、声学目标检索、语音增强、鲁棒性语音识别等关键技术具有重要意义和学术价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于深度学习的文本和语音多模态数据挖掘研究
基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究
机理和数据双驱动的高炉煤气预测和调度方法
基于数据驱动可迁移网络的肌电模式识别研究