随着互联网及多媒体技术的发展,音频数据量呈爆炸式增长,如何快速、准确地对音频信息进行分类检索,已成为急待解决的重要问题。目前互联网及各种数据库中的海量录音音频数据都以压缩格式存储,这些音频大多并非在专业录音棚中录制,故在压缩前混入了环境噪声,压缩过程同时引入了一定噪声,噪声的存在直接影响原有压缩域提取特征方法的表征准确度;压缩音频数据若解压后再抗噪处理,不仅增加计算量,抗噪效果也不理想。针对这些问题,本项目申请提出,直接在压缩域中模仿人耳对传统频谱的预处理操作来抑制噪声,建立压缩域听觉谱数学模型,基于压缩域直接提取高鲁棒性能的听觉谱音频特征,利用近似熵约简算法对所提取的压缩域听觉谱特征进行筛选和优化组合,研究基于熵的相似度度量方法及基于粒度的音频分类检索算法,为在压缩域中准确、快速地对音频信息进行分类和检索提供一种新的有效方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
双吸离心泵压力脉动特性数值模拟及试验研究
空气电晕放电发展过程的特征发射光谱分析与放电识别
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向工件表面缺陷的无监督域适应方法
基于机器听觉及稀疏表示分类的音乐音频与语义符号比对研究
基于知识域与数据域协同的图像压缩算法研究
基于Bandelet变换的压缩域图像检索技术研究
基于微词汇语义与时空、音频特征融合的视频内容分类算法研究