基于图像视觉分析与人类听觉系统机理的单通道CASA研究

基本信息
批准号:61202084
项目类别:青年科学基金项目
资助金额:24.00
负责人:林劼
学科分类:
依托单位:电子科技大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:段贵多,鲁晓军,付波,李朝荣,郑杰,詹思瑜,王德松,翟勇涛,陈建章
关键词:
计算听觉场景分析人类听觉系统机理鲁棒性图像视觉分析语音分离
结项摘要

From the points of image & vision analysis and principles of the human auditory system, by bring together the knowledge in image & vision processing, computational auditory scene analysis(CASA) and principles of the human auditory system, we will contribute a series of new CASA-based speech separation representations, models and approaches in this project, aiming to overcome some crucial and challenge problems for single-channel speech separation, consequently overall improving the performance of speech separation system in real-word applications. The research will first focus on the main problem-how to group or mask together regions of the spectrogram that belong to the same speech signal, and two streams of thought will be attempted to resolve this problem. The first approach is based on the masking analysis of spectrogram or cochleagram with image& vision theories. From this ideal, we will investigate a new grouping and masking method which groups the speech signal by using of image processing, in place of conventional group cues. On the other hand, a new model-based speech separation method will be presented, according to the proposed principles of the human auditory system. We will explore an adequate computer-model and computer-method formulation of the proposed principles, and investigate its application in speech estimation of model-based CASA for speech separation. .By the studying around image & vision and CASA technologies, further, we will discuss the feasible approaches for combating three significant problems in the implementing process (model-constraint constructing, feature extracting and robustly calculating for the speech estimation with partial feature corruptions)..Moreover, relied on the combination of above two kinds of new models and methods, the project will extend the research to resolve the speaker-independent problem for the model-based speech separation system. .The research achievements of this project would not only contribute to the signal-channel speech separation theories, but also facilitate the development of robust and practical speech separation applications.

本项目交叉了图像视觉处理、计算听觉场景分析(CASA)和人类听觉系统原理,以图像视觉分析与人类听觉系统机理为新思路,研究基于CASA理论的一类新型语音分离理论与算法,以解决单通道语音分离技术中存在的多项挑战性关键问题,改进与提升语音分离系统的整体性能与实用性。项目一方面以对语音时频谱图或Cochleagram图的图像视觉性分析为突破点,研究混合语音信号中原始语音信号的组合遮掩关键性问题的图形化解决方法。另一方面围绕我们提出的人类听觉系统机理的基本概念,以计算机模型和算法对该理论进行原始创新性描述。从图像视觉分析技术与基于模型学习的CASA基本机理出发,探索研究采用这一计算模型与算法实现语音分离过程中模型间约束关系表示问题、特征提取问题和语音模式鲁棒性估计问题的有效解决方法。进一步围绕提出的两类新方法,探索基于模型学习但说话人非依赖性的语音分离系统实现过程,揭示新模型与方法的有效性和实用性。

项目摘要

基于计算听觉场景分析(computational auditory scene analysis,CASA)理论的语音分离技术成为目前单通道语音分离的主角。虽现已有一些基于CASA理论的语音分离技术被提出,但是纵观现今的CASA技术,还存在多项挑战性的问题与困难。如何解决这些挑战性问题,正是本项目的目标所在。区别于现有的研究方法,项目新颖性的以图像视觉性分析与人类听觉系统机理为出发点,力求从新的思路提出并研究一系列新模型与方法,构建基于CASA理论的一类新型表示方式,形成一种解决现有挑战性问题的可行且有效的方案,为今后单通道语音分离问题的研究提供新理论与方法。.本项目主要研究工作分为两个方面,分别是对CASA理论中如何融合视觉感知特征、视觉特征的提取和融合理论的研究和基于听觉机理的CASA语音分离声学模型及其鲁棒性语音分离算法研究。主要工作和成果如下:.1、研究基于视觉图像分析与语音分析相结合的特征提取方法与语音切片、组合和遮掩方法。具体为:.1)提出了一种基于视觉感知的CASA语音分离模型与算法。融合视觉感知技术与CASA,通过将视觉空间的连续信息加入听觉场景分析中基于correlgram相关性特征的切片算法,形成分类新模型进行二分类,并提出了新的基于图像区域生长的语音片段组合方法和代价函数,实现更优化的切片算法。.2)提出基于局域模式识别的方式改进切片组合技术新方法。.3)基于视觉感知机理提出一种新型空间位置连续相关语音特征,及其在语音基音跟踪上的应用。.2、从人类听觉系统机理角度出发,研究适合于该理论的语音模型表示以及基于模型的单麦克风语音分离关键技术。分析并研究该模型的模型拓扑、训练算法、并最优化其表现语音相关性能力。. 1)通过对语音听觉机理进行研究,提出了一种基于深度学习模型DBNs神经网络结合HMM的二维语音声学模型;.2)从抗噪性和鲁棒性视角出发,研究并提出二维语音声学模型的鲁棒性特征表征模型local-CNN模型.3)从语音特征和图像特征融合抗噪的角度出发进一步研究了听觉模型的抗噪性模型,提出了PUDBNN模型,并将local-CNN与PUDBNN模型相结合提出鲁棒性单麦克风语音分离新算法。.在国内外期刊会议上共发表论文16篇、SCI检索5篇、EI检索10篇,申请国家发明专利2项,授权1项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

林劼的其他基金

批准号:61472082
批准年份:2014
资助金额:63.00
项目类别:面上项目

相似国自然基金

1

基于人类听觉系统建模的振动信号分析方法研究

批准号:50805021
批准年份:2008
负责人:李允公
学科分类:E0503
资助金额:21.00
项目类别:青年科学基金项目
2

结合人类视觉特性的非线性图像分析及其应用

批准号:60302012
批准年份:2003
负责人:李均利
学科分类:F0116
资助金额:20.00
项目类别:青年科学基金项目
3

多尺度几何分析与人类视觉系统相结合的图像融合技术研究

批准号:60702063
批准年份:2007
负责人:苗启广
学科分类:F0116
资助金额:21.00
项目类别:青年科学基金项目
4

模拟人类视觉系统的基于图像的快速三维建模方法

批准号:61173122
批准年份:2011
负责人:邹北骥
学科分类:F0209
资助金额:58.00
项目类别:面上项目