Computational Auditory Scene Analysis (CASA) is the one of general methods for speech separation, which is meaningful for many applications. According to the theory of auditory scene analysis (ASA), CASA has two major stages: segmentation and grouping. At present, many researches have focused on grouping stage. However, as the basis for the grouping, the auditory segmentation needs further study. This project proposes a framework for auditory segmentation which is based on statistical models and machine learning. It builds models for the auditory cues and combines ASA principles by Hidden Markov Model (HMM). The HMM establishs the relationship between features and auditory cues. Then, the ASA principles can be used during the decoding procedure. The characteristics of this project are that: 1) it has the same approach for both voiced and unvoiced segment which have different acoustic characteristics; 2) new signal features can be jointed easily which facilitates multi-feature fusion; 3) it is more robust by using statistical model.
计算听觉场景分析是解决声源分离问题的方法之一,具有重要的研究意义和广阔的应用前景。根据听觉场景分析理论,计算听觉场景分析包含:听觉片段切分和片段组织两个部分。目前计算听场景分析的研究主要集中在听觉片段组织部分,而听觉片段切分作为计算听觉场景分析的一个重要环节,也是组织过程的基础,还需进一步深入研究。本项目主要研究听觉片段的切分问题。与传统基于规则的切分方法不同,我们将以统计模型和机器学习为基础,通过对听觉场景分析的底层声学线索建立模型,并结合听觉场景分析准则和统计规律,对听觉片段切分问题进行研究。首先,利用隐马科夫模型刻画听觉线索,建立语音信号特征与听觉线索之间的联系。然后,研究听觉片段在隐马科夫模型框架下的生成算法。本项目提出的框架,对不同声学特性的清音和浊音片段具有统一的切分方法;方便加入新的信号特征,有较好的可扩展性,可以实现多特征的融合;对不同的噪声环境有较强的鲁棒性。
计算听觉场景分析是解决声源分离问题的方法之一,具有重要的研究意义和广阔的应用前景。本项目立足于基于计算听觉场景分析的语音分离,将深度学习与计算听觉场景分析相结合。一方面利用深度学习强大的建模能力,另一方面利用了计算听觉场景分析的知识。在单通道语音分离、语音频谱结构建模、噪声环境下的基音提取和多通道语音分离等方面提出了一系列新方法,提高了语音分离的性能。在IEEE Transaction on Audio, Speech and Language Processing、ICASSP、INTERSPEECH著名期刊和国际会议上发表了12篇学术论文。参与本项目的3名博士研究生获得了博士学位,7名硕士研究生获得了硕士学位。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
计算听觉场景分析及计算机听觉模型的研究
听觉定位计算模型和计算听觉场景分析研究
基于计算听觉场景分析的内燃机噪声源识别方法研究
声信号定位的听觉模型及其在声场景分析中的应用