As the rapid development of 3D audio technology based on the Multi-speaker playback, MPEG started to develop the 3D Audio standard. 3D audio technology has been a new hot spot. Compared with the traditional surrounding audio, the Key point of the 3D audio encoding system is the Reproducibility of 3D direction sense. As a result, encoding the spatial information is the core part of the 3D audio encoding system. Researchers are shown that the spatial information perception threshold for different directions and frequencies, the spatial information perception threshold differs up to 40 times to the human ear, so that 3D audio spatial information encoding based on the perception is the key point for 3D audio high-performance encoding. This project aim to the less consideration for the perceptual characteristics of the audio space information among the current multi-channel coding techniques, try to solve the problem that substantial distortion of perception of spatial information during compressing. Based on the existing spatial auditory experiment, we expand the traditional entropy theory to the calculation of the amount of space perception information and then build the perceived spatial information measure model to bring out the distortion measure of the perception spatial information. Moreover, we finish the design of perception spatial information quantizer in order to study spatial bit allocation algorithm under the perceived distortion. Finally, we build up the spatial information encoding framework based on the perception, which is expected to further improve the subjective performance of the current 3D audio encoder. The research achievements aspire to be the support technologies of relevant standard, so as to provide technical support for performance bottlenecks of the 3D audio encoding.
基于多音箱回放的3D音频技术快速发展,MPEG开始制订3D音频标准,3D音频技术已成为新的热点。相较于传统环绕声,3D音频的关键就是其对三维空间方位感的重现,因此空间信息编码是3D音频编码系统的核心。研究显示人耳对不同方位、频率的空间信息感知阈值相差可达40倍,因此基于感知的3D音频空间信息编码成为3D音频高性能编码的关键。本项目针对现有多声道编码技术缺少对声音空间信息感知特性的考虑,在追求压缩率时空间信息感知失真过大的问题,在已有空间听觉实验的基础上,将传统感知熵理论拓展到空间可感知信息量的计算,建立可感知空间信息度量模型,给出基于感知的空间信息失真测度,完成基于感知的空间信息量化器设计,研究感知失真条件下空间信息比特分配算法,最终构建基于感知的空间信息编码框架,预期可进一步改善现有3D音频编码器主观性能,研究成果渴望成为相关标准的支撑技术,为解决当前3D音频编码的性能瓶颈提供技术支撑。
相比于传统环绕声,3D音频的关键就是其对三维空间方位感的重现,因此空间信息编码是3D音频编码系统的核心。研究显示人耳对不同方位、频率的空间信息感知阈值相差可达40倍,因此基于感知的3D音频空间信息编码成为3D音频高性能编码的关键。. 为探索空间方位线索感知特性和机理,本项目设计出全新的高度角听觉阈值测量系统的实验装置,通过大量的听音实验,获得25个 bark 带、5种高度角的听觉阈值数据,为三维音频空间信息压缩提供基础数据和核心技术支撑。基于人耳听音原理,本项目将利用人耳对空间信息分辨率有限的特性,将感知分辨率引入基于香农信息论的感知信息量计算模型,建立了基于双耳线索和高度角的可感知信息度量模型。基于实验获取的数据和感知信息度量模型,本项目在传统失真测度的基础上引入人耳对空间方位信息的感知特性,建立新的失真测度。在此基础上提出全方位空间参数非均匀感知编码方法,并结合MPEG环绕声标准实现了基于空间感知的三维音频编解码器,还设计了方位和距离参数的量化方法,最终建立三维音频空间信息编码框架。与MPEG Surround进行主客观测试对比,空间参数噪掩比降低了约40%,主观MUSHRA得分平均提高约4分。本项目设计的编码框架进一步改善了现有3D音频编码器主观性能,为解决当前3D音频编码的性能瓶颈提供技术支撑。此外,项目组针对当前多声道音频压缩编码技术中并未充分考虑声源的空间位置对不同声道间信号相关性的影响,导致目前多声道分组编码时,相关性较强信号不能同组处理导致效率低下,非相关信号同组处理又产生混叠的问题,提出了一种低复杂度地对3D音频信号进行分组的空间聚类方法,解决了传统“欠分组”和“过分组”引起的效率下降和音质损失问题。与不分组进行的多声道矩阵编码相比,相同码率下SNR平均提高0.8dB。. 本项目实施过程中,在本领域相关会议和期刊上共发表科研论文17篇,其中在ICASSP、PCM等音频编码和声学研究领域的国际顶级会议发表论文7篇,在SCI检索的高水平国际期刊上发表论文2篇,在中国通信、通信学报等国内顶级学报和高水平期刊上发表文章10篇。申请人及项目组成员共申请国家发明专利9项,其中授权1项,受理8项。提交国家标准提案4项,其中M3240号提案被AVS工作组采纳为AVS面向语音音频应用的下一代AVS编解码框架。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
多空间交互协同过滤推荐
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
基于冗余字典和感知压缩的空间音频对象编码
基于空间挤压的可升级环绕音频编码技术研究
跨尺度空间全方位三维激光传感原理与关键技术研究
基于内容的音频信息检索关键技术研究