The current 3D video technology can provide good on-the-spot experience for users, but comparatively, the 3D audio technology still lags behind. As the increasing requires of dimensionality and resolution of spatial parameters of 3D audio, the bitrates of spatial parameters of 3D audio will increase drastically, resulting in unbearable bandwidth of mobile network. In order to solve those problems, some researchers introduce binaural auditory perception properties into compression of 3D audio spatial parameters, but they still ignore the research of distance perception properties and restrict the enhancement of coding efficiency. Thus, the applicants expand the current research of binaural perceptions of different orientation sound sources to the research of perceptions of different distances, build the model of auditory perception sensitivity with distance perception, and provide theoretical supports for perceptive compression of 3D audio. Then, we establish mapping relation between 3D audio spatial parameters and auditory perception sensitivity model, eliminate the perceptive redundancy of spatial parameters, and achieve undistorted perception compression of spatial paramaters. Compared with the current S3AC algorithm, the corresponding research results are expected to enhance the compression ratio of 3D audio spatial parameters by more than 20% under the condition of equivalent subjective quality. Also, we try to solve the urgent technical problem of high quality compression of 3D audio in television and game fields and promote the standard establishment of 3D audio and fast development of the related industry.
现有的3D视频技术已经能为用户提供较好的临场体验,但3D音频技术相对滞后,随着3D音频对空间参数维度和精度要求的提高,3D音频空间参数的码率大幅度上升,导致移动网络带宽难以承载。针对上述问题,有研究者将人耳听觉感知特性引入到3D音频空间参数的压缩中来,但仍然忽略距离感知特性的研究,制约了编码效率的提升。为此,申请者通过拓展现有人耳对不同方位声源的感知研究至不同距离感知的研究,建立带距离感知的听觉感知灵敏度模型,为3D音频的感知压缩提供理论支撑。其次,建立3D音频空间参数与听觉感知灵敏度模型的映射关系,消除空间参数的感知冗余,实现空间参数的感知无失真压缩。相关研究成果预期较现有的S3AC算法在主观音质相当的条件下,提升3D音频空间信息压缩率20%以上;尝试解决3D音频在影视和游戏领域高质量压缩的迫切技术问题,推动3D音频标准的制定和产业快速发展。
不论是现有较为成熟的3D影视,还是刚刚兴起的VR技术,大多只是在视觉上进行编码和重建,在听觉编码和重建上仍然沿用着传统的立体声或环绕声技术,3D音频技术相对滞后,随着3D音频对空间参数维度和精度要求的提高,3D音频空间参数的码率大幅度上升,导致移动网络带宽难以承载。针对上述问题,有研究者将人耳听觉感知特性引入到3D音频空间参数的压缩中来,但仍然忽略距离感知特性的研究,制约了编码效率的提升。为此,我们通过拓展现有人耳对不同方位声源的感知研究至不同距离感知的研究,并进行了人耳距离感知敏感度的测量,结合研究团队以前的水平角、高度角的研究数据,建立了带距离感知的听觉感知灵敏度模型,为3D音频的感知压缩提供了理论支撑。其次,建立了3D音频空间参数与听觉感知灵敏度模型的映射关系,设计了基于听觉感知敏感度模型的空间参数码本,实现了空间参数的感知无失真压缩。在主观听音质量相当的情况下,与S3AC相比,该方法的信息压缩率提升55%(高精度)和43%(低精度),编码码率可以降低9.78%(高精度)和8.07%(低精度)。同时,我们依据空间参数帧内的空间相关性,还提出了基于感知的空间参数聚类压缩方法,揭示三维音频帧内空间参数的压缩极限,实验结果表明空间参数的压缩比理论上可以达到7:1(当子带数为40,音源对象数为8时),考虑到感知聚类压缩的对象标识带来的开销,实际压缩比可以达到3.3:1,已超过项目结题考核指标。研究期间,还参与了国内3D音频标准的制定(包括AVS VR需求提案和AVS VR主观测试提案),积极推动3D音频产业的快速发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
钢筋混凝土带翼缘剪力墙破坏机理研究
Combining Spectral Unmixing and 3D/2D Dense Networks with Early-Exiting Strategy for Hyperspectral Image Classification
采用深度学习的铣刀磨损状态预测模型
一种加权距离连续K中心选址问题求解方法
基于冗余字典和感知压缩的空间音频对象编码
基于空间相关性的3D音频聚类分组压缩技术研究
基于视觉感知的高效3D全景视频编码压缩研究
基于部分K空间数据子空间分解的贝叶斯非参数压缩感知MRI重建方法