Current steered response power sound source localization method has limitations: using only regular arrays, poor robustness against non-stationary noise, unsuitable for multiple source localization. To solve these problems, our program will focus on sound source detection and reconstruction in immersive dynamic multiple source environments. First, by applying statistical analysis, define geometry descriptors to characterize microphone distributions affecting array performance, set up the relationship model between geometry descriptors and performance metrics. Secondly, based on the probabilistic rule of dynamic scene and the optimal geometry descriptors, develop non-computer-aided microphone cluster design method. Thirdly, use the statistical characteristics of steered response coherent power to estimate the adaptive threshold to detect target source locations. Finally, by applying time-frequency mask to eliminate the degradation brought by non-stationary noise and develop time-space segmentation and parallelization strategy to speed up the computation for real time applications. The results explain the reason for the performance differences of irregular geometries. It can be used for the non-computer-aided array optimization and provide a feasible method for the source extraction in 3D virtual/intelligent environment applications.
目前基于可控响应功率的声源定位与目标信号重建的研究存在阵列分布单一化、对非平稳相干噪声鲁棒性差、无法进行多声源探测等问题,本项目拟针对浸入式动态多语音源场景进行实时鲁棒的声源探测和目标信号重建研究。主要内容有:采用统计特征分析法,提取影响阵列性能的关键分布特征参数,建立其与阵列性能绩效矩阵间的直观关系模型;融合动态声学场景概率函数,建立基于最优关键特征参数的麦克风位置控制机制,实现非计算机辅助的最优阵列集群构建;提出基于噪声场可控响应相干功率分布对称性的门限估计算法,实现自适应动态多声源探测;利用时频掩模消除非平稳噪声影响,构造与人语音习惯相关的时间窗和与声源速度相关的球形空间窗提升系统实时性。项目研究成果将揭示造成非规则阵列性能优劣差异的根本原因,为非计算机辅助的阵列分布最优化提供理论支持,为在多媒体虚拟/智能环境中的声源探测和重建提供有效可行的方法。
目前基于可控响应功率SRP的声源定位技术存在无法进行多源定位、最优阵列成因不明、计算量庞大难以实时处理等问题,制约了其在声源位置和场景快速多变的浸入式语音环境中的应用。本项目采用统计特征分析方法对最优麦克风阵列的关键分布特征参数集和多声源定位可控响应相关功率SRCP图谱进行研究,针对运动多声源复杂噪声场进行鲁棒自适应的声源探测和重建。成果包括:发现和验证了对阵列性能有决定性影响的麦克风分布关键特征参数(阵列重心偏移、 阵列离散度参数、差分路径距离二阶矩和Pielou均匀指数等熵描述符)。基于最优阵元分布特征参数和关键阵列性能指标之间的确定性模型,利用不同应用场景(说话人、干扰人的行为模式等)和频谱的先验信息,建立计算机辅助启发式搜索、非计算机辅助的双曲线法和神经网络法三套非规则麦克风阵列优化方案,与传统规则阵列相比有效抑制了噪声并提升了空间分辨率,不用经过优化计算即可得到与计算机辅助方法类似的最优阵性能。另外,将基于恒定误报率的自适应算法引入麦克风声源定位中,实现了抗混响的多语音源探测。 根据系统预先制定的误报率和SRCP正负像素分布的相似性,采用实时SRCP图谱目标点邻域中只含有噪声信号能量的负值像素点来估计针对目标点的声源判决门限,解决了传统SRP-PHAT无法进行多个声源探测和无法应对声源信号停顿的问题。为了进一步消除非平稳噪声干扰源的影响,采用波束成型和时频掩模技术结合进行目标语音的重建。将基于人声时频域信息的DNN-based masking与基于麦克风阵列分布的空域信息的Spatial clustering-based masking进行有机融合,来解决DNN预训练数据与实际场景数据不符的问题,显著提升重建信号信噪比和语言可懂度指数。本项目研究成果具有一定的学术意义,且可广泛应用于智能人机接口,多媒体虚拟智能环境的构建、语音监控、智能车载和手持声控/通信系统、远程医疗监控、和三维虚拟军事训练/游戏等。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于孔径误差修正的基尔霍夫衍射声全息车辆声源定量重建方法研究
基于声传感器阵列的直升机旋翼噪声源定位实验技术研究
基于相控聚焦多元阵列探测的快速光声分子成像
随钻方位声源的声场特征及声系设计的理论与方法研究