音频信号处理中基于模型的语音与音乐信号分离算法

基本信息
批准号:60901061
项目类别:青年科学基金项目
资助金额:18.00
负责人:郑能恒
学科分类:
依托单位:深圳大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:刘明辉,陈泯融,陈小红,张亚磊,肖海波,冯智杰,夏晓玲,孟凡阳
关键词:
特征提取与建模信号分离音频信号处理语音与音乐
结项摘要

基于内容的音频信息检索是网络多媒体信息服务的关键技术之一,具有广泛的应用前景。当前音频信息检索的主要技术瓶颈之一是语音与音乐混叠信号的分离。不同信号的混叠导致语音/音乐识别与归类准确率的下降,从而降低检索结果的可靠性。本项目拟研究一种可靠的信号分离算法,用于从混叠信号中分离出语音与音乐,从而提高语音识别的准确率,最终达到可靠、高效的音频检索的目标。针对本项目所处理的音频文件的特性,我们提出一种基于模型的分离算法。首先通过音频分割算法在一个音频文件中分割出纯语音、纯音乐、以及语音与音乐混叠信号。在此基础上,通过信号分析与建模技术,获得关于纯语音的和纯音乐的可区分、可分离的特征参数及其模型。根据同一段音频流内同类信号之间的相关性,这些模型提供了混叠信号对应成分的先验知识。利用这些先验知识,实现语音与音乐信号的有效分离。

项目摘要

以语音识别、音乐分类等为基础的音频内容的分析与识别是网络多媒体信息服务的关键技术之一。不同音频源信号的混叠与相互干扰是该技术广泛应用的主要瓶颈。本项目针对这一关键问题,从可靠的音频分割、噪声估计与分析建模、语音与音乐信号的特征空间矩阵分析、语音与干扰信号源分离等方面进行了深入的研究,针对不同的噪声源提出了若干个语音分离与增强算法。特别地,着眼于提高语音识别率这一最终目标,在基于非负矩阵分解的语音分离算法中,引入语音识别模型构造基于语音识别似然率成绩(Viterbi score)的代价函数,实现了有效的语音与音乐信号的分离。一般来说,语音分离算法在剔除干扰信号的同时往往带来一定程度的语音失真,这导致增强后的语音并不能直接带来语音识别率的提高。本项目所提算法实现了语音增强和语音识别的有机统一。进一步揭示了语音识别似然率成绩作为语音识别结果置信测度的科学性,对基于统计模型的现代模式识别具有普遍性的指导意义。.本项目具体研究成果包括出版语音处理专著1本,期刊论文3篇,会议论文9篇;论文检索方面:SCI 检索1篇,EI 检索7篇;培养青年学术骨干2人,硕士研究生6人(毕业3人、在读3人)。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
5

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

DOI:
发表时间:2020

郑能恒的其他基金

相似国自然基金

1

按耳蜗模型处理语音信号的研究

批准号:68972021
批准年份:1989
负责人:樊昌信
学科分类:F0211
资助金额:4.00
项目类别:面上项目
2

语音信号非线性处理方法研究

批准号:69172009
批准年份:1991
负责人:欧阳景正
学科分类:F0211
资助金额:4.00
项目类别:面上项目
3

矢量量化方法在语音信号处理中的应用

批准号:68772033
批准年份:1987
负责人:王中
学科分类:F0111
资助金额:3.00
项目类别:面上项目
4

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

批准号:11501351
批准年份:2015
负责人:张红娟
学科分类:A0405
资助金额:18.00
项目类别:青年科学基金项目