基于距离感知的3D音频空间参数压缩研究

基本信息
批准号:61662010
项目类别:地区科学基金项目
资助金额:38.00
负责人:杨乘
学科分类:
依托单位:贵州师范大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:王晓晨,陈葡,武庭照,陈玮,吴亚飞,宋玉成,王金山,张旺,吴伟坚
关键词:
距离感知机理3D音频编码
结项摘要

The current 3D video technology can provide good on-the-spot experience for users, but comparatively, the 3D audio technology still lags behind. As the increasing requires of dimensionality and resolution of spatial parameters of 3D audio, the bitrates of spatial parameters of 3D audio will increase drastically, resulting in unbearable bandwidth of mobile network. In order to solve those problems, some researchers introduce binaural auditory perception properties into compression of 3D audio spatial parameters, but they still ignore the research of distance perception properties and restrict the enhancement of coding efficiency. Thus, the applicants expand the current research of binaural perceptions of different orientation sound sources to the research of perceptions of different distances, build the model of auditory perception sensitivity with distance perception, and provide theoretical supports for perceptive compression of 3D audio. Then, we establish mapping relation between 3D audio spatial parameters and auditory perception sensitivity model, eliminate the perceptive redundancy of spatial parameters, and achieve undistorted perception compression of spatial paramaters. Compared with the current S3AC algorithm, the corresponding research results are expected to enhance the compression ratio of 3D audio spatial parameters by more than 20% under the condition of equivalent subjective quality. Also, we try to solve the urgent technical problem of high quality compression of 3D audio in television and game fields and promote the standard establishment of 3D audio and fast development of the related industry.

现有的3D视频技术已经能为用户提供较好的临场体验,但3D音频技术相对滞后,随着3D音频对空间参数维度和精度要求的提高,3D音频空间参数的码率大幅度上升,导致移动网络带宽难以承载。针对上述问题,有研究者将人耳听觉感知特性引入到3D音频空间参数的压缩中来,但仍然忽略距离感知特性的研究,制约了编码效率的提升。为此,申请者通过拓展现有人耳对不同方位声源的感知研究至不同距离感知的研究,建立带距离感知的听觉感知灵敏度模型,为3D音频的感知压缩提供理论支撑。其次,建立3D音频空间参数与听觉感知灵敏度模型的映射关系,消除空间参数的感知冗余,实现空间参数的感知无失真压缩。相关研究成果预期较现有的S3AC算法在主观音质相当的条件下,提升3D音频空间信息压缩率20%以上;尝试解决3D音频在影视和游戏领域高质量压缩的迫切技术问题,推动3D音频标准的制定和产业快速发展。

项目摘要

不论是现有较为成熟的3D影视,还是刚刚兴起的VR技术,大多只是在视觉上进行编码和重建,在听觉编码和重建上仍然沿用着传统的立体声或环绕声技术,3D音频技术相对滞后,随着3D音频对空间参数维度和精度要求的提高,3D音频空间参数的码率大幅度上升,导致移动网络带宽难以承载。针对上述问题,有研究者将人耳听觉感知特性引入到3D音频空间参数的压缩中来,但仍然忽略距离感知特性的研究,制约了编码效率的提升。为此,我们通过拓展现有人耳对不同方位声源的感知研究至不同距离感知的研究,并进行了人耳距离感知敏感度的测量,结合研究团队以前的水平角、高度角的研究数据,建立了带距离感知的听觉感知灵敏度模型,为3D音频的感知压缩提供了理论支撑。其次,建立了3D音频空间参数与听觉感知灵敏度模型的映射关系,设计了基于听觉感知敏感度模型的空间参数码本,实现了空间参数的感知无失真压缩。在主观听音质量相当的情况下,与S3AC相比,该方法的信息压缩率提升55%(高精度)和43%(低精度),编码码率可以降低9.78%(高精度)和8.07%(低精度)。同时,我们依据空间参数帧内的空间相关性,还提出了基于感知的空间参数聚类压缩方法,揭示三维音频帧内空间参数的压缩极限,实验结果表明空间参数的压缩比理论上可以达到7:1(当子带数为40,音源对象数为8时),考虑到感知聚类压缩的对象标识带来的开销,实际压缩比可以达到3.3:1,已超过项目结题考核指标。研究期间,还参与了国内3D音频标准的制定(包括AVS VR需求提案和AVS VR主观测试提案),积极推动3D音频产业的快速发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

钢筋混凝土带翼缘剪力墙破坏机理研究

钢筋混凝土带翼缘剪力墙破坏机理研究

DOI:10.15986/j.1006-7930.2017.06.014
发表时间:2017
3

Combining Spectral Unmixing and 3D/2D Dense Networks with Early-Exiting Strategy for Hyperspectral Image Classification

Combining Spectral Unmixing and 3D/2D Dense Networks with Early-Exiting Strategy for Hyperspectral Image Classification

DOI:10.3390/rs12050779
发表时间:2020
4

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020
5

一种加权距离连续K中心选址问题求解方法

一种加权距离连续K中心选址问题求解方法

DOI:
发表时间:2020

杨乘的其他基金

相似国自然基金

1

基于冗余字典和感知压缩的空间音频对象编码

批准号:61171171
批准年份:2011
负责人:应忍冬
学科分类:F0117
资助金额:56.00
项目类别:面上项目
2

基于空间相关性的3D音频聚类分组压缩技术研究

批准号:61471271
批准年份:2014
负责人:高戈
学科分类:F0101
资助金额:86.00
项目类别:面上项目
3

基于视觉感知的高效3D全景视频编码压缩研究

批准号:61871270
批准年份:2018
负责人:王旭
学科分类:F0108
资助金额:63.00
项目类别:面上项目
4

基于部分K空间数据子空间分解的贝叶斯非参数压缩感知MRI重建方法

批准号:61571382
批准年份:2015
负责人:丁兴号
学科分类:F0125
资助金额:57.00
项目类别:面上项目