基于内容的音频信息检索是网络多媒体信息服务的关键技术之一,具有广泛的应用前景。当前音频信息检索的主要技术瓶颈之一是语音与音乐混叠信号的分离。不同信号的混叠导致语音/音乐识别与归类准确率的下降,从而降低检索结果的可靠性。本项目拟研究一种可靠的信号分离算法,用于从混叠信号中分离出语音与音乐,从而提高语音识别的准确率,最终达到可靠、高效的音频检索的目标。针对本项目所处理的音频文件的特性,我们提出一种基于模型的分离算法。首先通过音频分割算法在一个音频文件中分割出纯语音、纯音乐、以及语音与音乐混叠信号。在此基础上,通过信号分析与建模技术,获得关于纯语音的和纯音乐的可区分、可分离的特征参数及其模型。根据同一段音频流内同类信号之间的相关性,这些模型提供了混叠信号对应成分的先验知识。利用这些先验知识,实现语音与音乐信号的有效分离。
以语音识别、音乐分类等为基础的音频内容的分析与识别是网络多媒体信息服务的关键技术之一。不同音频源信号的混叠与相互干扰是该技术广泛应用的主要瓶颈。本项目针对这一关键问题,从可靠的音频分割、噪声估计与分析建模、语音与音乐信号的特征空间矩阵分析、语音与干扰信号源分离等方面进行了深入的研究,针对不同的噪声源提出了若干个语音分离与增强算法。特别地,着眼于提高语音识别率这一最终目标,在基于非负矩阵分解的语音分离算法中,引入语音识别模型构造基于语音识别似然率成绩(Viterbi score)的代价函数,实现了有效的语音与音乐信号的分离。一般来说,语音分离算法在剔除干扰信号的同时往往带来一定程度的语音失真,这导致增强后的语音并不能直接带来语音识别率的提高。本项目所提算法实现了语音增强和语音识别的有机统一。进一步揭示了语音识别似然率成绩作为语音识别结果置信测度的科学性,对基于统计模型的现代模式识别具有普遍性的指导意义。.本项目具体研究成果包括出版语音处理专著1本,期刊论文3篇,会议论文9篇;论文检索方面:SCI 检索1篇,EI 检索7篇;培养青年学术骨干2人,硕士研究生6人(毕业3人、在读3人)。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于分形维数和支持向量机的串联电弧故障诊断方法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
按耳蜗模型处理语音信号的研究
语音信号非线性处理方法研究
矢量量化方法在语音信号处理中的应用
稀疏信号驱动的时间序列信号盲分离优化模型及算法研究