基于空间相关性的3D音频聚类分组压缩技术研究

基本信息
批准号:61471271
项目类别:面上项目
资助金额:86.00
负责人:高戈
学科分类:
依托单位:武汉大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈怡,梁超,王晓晨,董石,张茂胜,高丽,吕亚平,张康
关键词:
矩阵编码信源编码3D音频压缩
结项摘要

With the start of 3D audio compression standardization process of MPEG, 3D audio compression technology has become a hot research topic in the field of 3D audio. Different from conventional audio techniques, a large number of loudspeakers are used by three-dimensional audio system to reconstruct sound image, resulting in the linear growth of the volume of 3D audio signal with the number of 3D audio channels, which urgently needs to improve the compression efficiency of the 3D audio signal. To tackle the difficulty of traditional 3D audio technology in clustering strongly correlated channel signals, we propose a dynamic grouping method based on 3D spatial clustering characteristics of the audio signal to solve the efficiency decrease and quality loss issues caused by the so-called under-grouping" and "over-grouping" methods. Moreover, a dynamic grouping oriented matrix encoding method is proposed to deal with the removal of inter-channel signal redundancy, which is difficult to the traditional matrix coding technology. Then, we present a perceptual threshold model for the dynamic grouping and perceptual coding matrix method. With the same computational complexity, the coding efficiency of the new algorithm is at least 10% higher than that of the conventional 3D audio compression technology. The project provides more compression efficiency from the above three aspects of the encoder architecture, inter-channel signal compression and the inner channel signal compression, which improves 3D audio compression efficiency and accelerates the standard formulation of 3D audio and rapid development of the relevant industry .

随着MPEG启动3D音频压缩标准化进程,面向直播的3D音频压缩技术已成为3D音频领域的研究热点。与传统音频技术不同,三维音频系统采用大量扬声器重建三维声像,导致3D音频数据随声道数线性增长,迫切需要提高3D音频信号的压缩效率。针对传统3D音频编码技术难以有效地将相关性强的声道信号进行分组编码的问题,提出基于空间聚类特性的3D音频信号动态分组方法,解决传统"欠分组"和"过分组"引起的效率下降和音质损失问题;针对传统矩阵编码技术用于3D音频编码时无法有效去除冗余的问题,提出面向动态分组的矩阵编码,实现3D音频声道信号间冗余的高效去除;提出面向动态分组和矩阵编码的感知阈值模型。与现有3D音频压缩技术相比,在运算复杂度相当的情况下,3D音频信号的压缩效率至少提高10%。本项目从编码器架构、声道间信号压缩和声道内信号压缩三方面提高了3D音频压缩效率,预期可以推动3D音频标准制定和产业快速发展。

项目摘要

随着MPEG启动3D音频压缩标准化进程,面向直播的3D音频压缩技术已成为3D音频领域的研究热点。与传统音频技术不同,三维音频系统采用大量扬声器重建三维声像,导致3D音频数据随声道数线性增长,迫切需要提高3D音频信号的压缩效率。. 针对传统3D音频编码难以有效地将相关性强的声道信号进行分组编码的问题,提出基于空间相关性的信号动态分组方法,引入了3D音频信号的时空域相关分析,聚类强相关信号并进行分组,提高分组后冗余去除算法的效果。针对传统矩阵编码用于3D音频编码时无法有效去除冗余的问题,提出面向动态分组的矩阵编码方法,保证冗余去除的高效性,并使信号间不产生混叠现象,提高编码的主客观音质;提出面向矩阵变换的感知阈值模型,对核心编码器的感知阈值模型进行修正,保证变换后信号感知编码最优化,提高3D音频编码的主观音质。主观音质相当时,与基于和差的3D音频编码相比,压缩效率提高14.35%。为了更有效地对指向性很强的主声源分量和具有很宽声场的环境声分量进行编码,提出基于最小二乘的主声源-环境声提取方法,将主声源-环境声提取问题转换为加权矩阵估计问题,通过最小二乘法提取主声源分量和环境声分量。在提取误差和环境声分量的空间参数方面,明显优于传统的PCA方法。针对音源对象间空间参数压缩率不高的问题,提出三维空间参数动态量化编码方法,用人耳对音源的三维空间方位感知特性,生成三维空间位置矢量量化码本;利用对象所围成的空间区域范围作为约束条件,动态选择空间参数局部矢量量化码本,降低空间参数编码码率。主观音质相当时,与MPEG SAOC的对象间空间参数编码方法相比,平均码率可降低29.46%。. 项目实施过程中,在本领域相关会议和期刊上发表论文16篇,其中ICME、PCM等音频编码和声学研究领域的国际会议发表论文13篇,SCI检索的国际期刊上发表论文3篇。申请国家发明专利8项,其中授权4项,受理4项。提交3D音频编解码标准提案3项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
3

感应不均匀介质的琼斯矩阵

感应不均匀介质的琼斯矩阵

DOI:10.11918/j.issn.0367-6234.201804052
发表时间:2019
4

Combining Spectral Unmixing and 3D/2D Dense Networks with Early-Exiting Strategy for Hyperspectral Image Classification

Combining Spectral Unmixing and 3D/2D Dense Networks with Early-Exiting Strategy for Hyperspectral Image Classification

DOI:10.3390/rs12050779
发表时间:2020
5

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020

高戈的其他基金

批准号:81601350
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:20902063
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:21772134
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:21472127
批准年份:2014
资助金额:86.00
项目类别:面上项目
批准号:21172159
批准年份:2011
资助金额:60.00
项目类别:面上项目

相似国自然基金

1

基于距离感知的3D音频空间参数压缩研究

批准号:61662010
批准年份:2016
负责人:杨乘
学科分类:F0209
资助金额:38.00
项目类别:地区科学基金项目
2

基于张量分析的空间音频信号压缩与重建技术研究

批准号:61571044
批准年份:2015
负责人:王晶
学科分类:F0117
资助金额:60.00
项目类别:面上项目
3

基于冗余字典和感知压缩的空间音频对象编码

批准号:61171171
批准年份:2011
负责人:应忍冬
学科分类:F0117
资助金额:56.00
项目类别:面上项目
4

压缩子空间聚类理论及其应用研究

批准号:61371137
批准年份:2013
负责人:谷源涛
学科分类:F0111
资助金额:80.00
项目类别:面上项目