当前,迫切需要基于内容对海量、丰富的数字音乐资源进行有效定位、分析和检索,但相关系统性能的提升遭遇了音乐音频物理特征与语义内容脱节的瓶颈。因此,音乐音频与语义符号的比对研究是音乐内容分析、检索领域的关键研究问题之一。为此,本课题创新研究思路,拟将音乐音频信号的表示由声源端移至与认知直接相关的听觉端,尝试构建普遍适用于音乐音频各种声源的机器听觉系统,并结合欠定方程最小一范数凸优化的最新研究成果,为音乐音频语义符号比对提供新方法,以解决传统方法难以适应各种复杂多变音乐声源、音频事件,算法不稳定,过拟合等问题,从而达到有效提高音乐音频语义符号比对的准确度和精度的目的。本项目中机器听觉系统由听觉预处理、特征提取和分类判决构成开放式结构,还适用于其他基于内容的音频处理应用。相关研究成果将推动音乐音频内容定位、检索、交互式计算机虚拟乐器陪练、计算机伴奏系统、音乐评价系统等方面的研究。
本课题开展的音乐音频与语义符号比对的研究是音乐内容分析、检索领域的关键研究问题之一,旨在突破音乐音频底层物理特征与语义内容脱节的瓶颈,以期最终实现基于内容对海量、丰富的数字音乐资源进行有效定位、分析和检索。鉴于传统比对方法存在难以适应复杂多变音乐声源、音频事件,算法不稳定,过拟合等问题,本课题采用新的研究思路,将对音乐音频信号的表示由声源端移至与认知直接相关的听觉端,构建了普遍适用于音乐音频各种声源的机器听觉系统,其中结合了借鉴人类认知过程中神经元开启机制的稀疏表示分类方法,为音乐音频语义符号比对提供了新的框架和方法。课题组成员首先深入研究了听觉端音乐音频信号的听觉图像表示,提出了音乐音频的听觉图像特征提取方法,与传统的Mel频率倒谱系数图和时频表示图相比,从听觉图像中提取出的特征,能更好的区分表征音乐语义内容的不同流派及和弦。其次,我们将音乐音频语义符号比对问题归结为以拍点为识别单位的音乐音频语义内容的分类识别问题,提出了基于稀疏表示分类器的和弦识别方法。我们的研究结果表明稀疏表示分类器在和弦识别上较常用的模板匹配方法高2.7%,进一步结合音频的听觉图像特征,取得了较同样考虑了听觉特性的Mel频率倒谱系数图像特征更高的识别率。此外,围绕核心比对问题,我们还提出了基于最大最小距离法的音乐音频节拍跟踪方法,提出了音乐音频多重字典稀疏表示方法,提出了音乐音频中偏差语义内容的检测方法,提出了适合多种乐器的和弦特征提取方法等。本课题中机器听觉系统由听觉预处理、特征提取和分类判决构成开放式结构,还适用于其他基于内容的音频处理应用。相关研究成果将推动音乐音频内容定位、检索、交互式计算机虚拟乐器陪练、计算机伴奏系统、音乐评价系统等方面的研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
带有滑动摩擦摆支座的500 kV变压器地震响应
基于腔内级联变频的0.63μm波段多波长激光器
新型树启发式搜索算法的机器人路径规划
具有随机多跳时变时延的多航天器协同编队姿态一致性
现代优化理论与应用
基于稀疏语义表示的大规模图像分类问题研究
基于压缩域听觉谱的音频分类与检索算法研究
基于微词汇语义与时空、音频特征融合的视频内容分类算法研究
基于稀疏表示和超图的视频事件语义分析方法研究