三维音频中空间方位信息感知编码关键技术研究

基本信息

批准号：61201169

项目类别：青年科学基金项目

资助金额：25.00

负责人：王晓晨

学科分类：

依托单位：武汉大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：张聪,董石,杭波,刘梦颖,王汪,冯新桓,杨姗姗

关键词：

空间信息感知感知失真测度信源编码三维音频编码

结项摘要

As the rapid development of 3D audio technology based on the Multi-speaker playback, MPEG started to develop the 3D Audio standard. 3D audio technology has been a new hot spot. Compared with the traditional surrounding audio, the Key point of the 3D audio encoding system is the Reproducibility of 3D direction sense. As a result, encoding the spatial information is the core part of the 3D audio encoding system. Researchers are shown that the spatial information perception threshold for different directions and frequencies, the spatial information perception threshold differs up to 40 times to the human ear, so that 3D audio spatial information encoding based on the perception is the key point for 3D audio high-performance encoding. This project aim to the less consideration for the perceptual characteristics of the audio space information among the current multi-channel coding techniques, try to solve the problem that substantial distortion of perception of spatial information during compressing. Based on the existing spatial auditory experiment, we expand the traditional entropy theory to the calculation of the amount of space perception information and then build the perceived spatial information measure model to bring out the distortion measure of the perception spatial information. Moreover, we finish the design of perception spatial information quantizer in order to study spatial bit allocation algorithm under the perceived distortion. Finally, we build up the spatial information encoding framework based on the perception, which is expected to further improve the subjective performance of the current 3D audio encoder. The research achievements aspire to be the support technologies of relevant standard, so as to provide technical support for performance bottlenecks of the 3D audio encoding.

基于多音箱回放的3D音频技术快速发展，MPEG开始制订3D音频标准，3D音频技术已成为新的热点。相较于传统环绕声，3D音频的关键就是其对三维空间方位感的重现，因此空间信息编码是3D音频编码系统的核心。研究显示人耳对不同方位、频率的空间信息感知阈值相差可达40倍，因此基于感知的3D音频空间信息编码成为3D音频高性能编码的关键。本项目针对现有多声道编码技术缺少对声音空间信息感知特性的考虑，在追求压缩率时空间信息感知失真过大的问题，在已有空间听觉实验的基础上，将传统感知熵理论拓展到空间可感知信息量的计算，建立可感知空间信息度量模型，给出基于感知的空间信息失真测度，完成基于感知的空间信息量化器设计，研究感知失真条件下空间信息比特分配算法，最终构建基于感知的空间信息编码框架，预期可进一步改善现有3D音频编码器主观性能，研究成果渴望成为相关标准的支撑技术，为解决当前3D音频编码的性能瓶颈提供技术支撑。

项目摘要

相比于传统环绕声，3D音频的关键就是其对三维空间方位感的重现，因此空间信息编码是3D音频编码系统的核心。研究显示人耳对不同方位、频率的空间信息感知阈值相差可达40倍，因此基于感知的3D音频空间信息编码成为3D音频高性能编码的关键。. 为探索空间方位线索感知特性和机理，本项目设计出全新的高度角听觉阈值测量系统的实验装置，通过大量的听音实验，获得25个 bark 带、5种高度角的听觉阈值数据，为三维音频空间信息压缩提供基础数据和核心技术支撑。基于人耳听音原理，本项目将利用人耳对空间信息分辨率有限的特性，将感知分辨率引入基于香农信息论的感知信息量计算模型，建立了基于双耳线索和高度角的可感知信息度量模型。基于实验获取的数据和感知信息度量模型，本项目在传统失真测度的基础上引入人耳对空间方位信息的感知特性，建立新的失真测度。在此基础上提出全方位空间参数非均匀感知编码方法，并结合MPEG环绕声标准实现了基于空间感知的三维音频编解码器，还设计了方位和距离参数的量化方法，最终建立三维音频空间信息编码框架。与MPEG Surround进行主客观测试对比，空间参数噪掩比降低了约40%，主观MUSHRA得分平均提高约4分。本项目设计的编码框架进一步改善了现有3D音频编码器主观性能，为解决当前3D音频编码的性能瓶颈提供技术支撑。此外，项目组针对当前多声道音频压缩编码技术中并未充分考虑声源的空间位置对不同声道间信号相关性的影响，导致目前多声道分组编码时，相关性较强信号不能同组处理导致效率低下，非相关信号同组处理又产生混叠的问题，提出了一种低复杂度地对3D音频信号进行分组的空间聚类方法，解决了传统“欠分组”和“过分组”引起的效率下降和音质损失问题。与不分组进行的多声道矩阵编码相比，相同码率下SNR平均提高0.8dB。. 本项目实施过程中，在本领域相关会议和期刊上共发表科研论文17篇，其中在ICASSP、PCM等音频编码和声学研究领域的国际顶级会议发表论文7篇，在SCI检索的高水平国际期刊上发表论文2篇，在中国通信、通信学报等国内顶级学报和高水平期刊上发表文章10篇。申请人及项目组成员共申请国家发明专利9项，其中授权1项，受理8项。提交国家标准提案4项，其中M3240号提案被AVS工作组采纳为AVS面向语音音频应用的下一代AVS编解码框架。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：

发表时间：2019

DOI：

发表时间：2021

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

王晓晨的其他基金

批准号：21504019

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：21602114

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：21606066

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：21871147

批准年份：2018

资助金额：64.00

项目类别：面上项目

批准号：91754203

批准年份：2017

资助金额：290.00

项目类别：重大研究计划

批准号：51304017

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：31630018

批准年份：2016

资助金额：266.00

项目类别：重点项目

批准号：51773046

批准年份：2017

资助金额：58.00

项目类别：面上项目

批准号：81202098

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：91956106

批准年份：2019

资助金额：75.00

项目类别：重大研究计划

相似国自然基金

基于冗余字典和感知压缩的空间音频对象编码

批准号：61171171

批准年份：2011

负责人：应忍冬

学科分类：F0117

资助金额：56.00

项目类别：面上项目

基于空间挤压的可升级环绕音频编码技术研究

批准号：61201197

批准年份：2012

负责人：贾懋珅

学科分类：F0101

资助金额：25.00

项目类别：青年科学基金项目

跨尺度空间全方位三维激光传感原理与关键技术研究

批准号：61771336

批准年份：2017

负责人：吴斌

学科分类：F0114

资助金额：16.00

项目类别：面上项目

基于内容的音频信息检索关键技术研究

批准号：60672163

批准年份：2006

负责人：韩纪庆

学科分类：F0113

资助金额：28.00

项目类别：联合基金项目

三维音频中空间方位信息感知编码关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于主体视角的历史街区地方感差异研究———以北京南锣鼓巷为例

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

信息熵-保真度联合度量函数的单幅图像去雾方法

王晓晨的其他基金

高选择性直接芳基化缩合聚合反应研究及应用

手性“受阻路易斯酸碱对”催化剂的设计、合成及应用

离子热合成介孔聚离子液体及在常压低温下CO2捕集和转化中的高效应用

硼催化碳碳键和碳氢键的断裂及官能化反应

细胞器互作调控溶酶体完整性的机制研究

精密钛合金板材无张力冷轧关键质量模型研究

以秀丽线虫为模式解析溶酶体功能及动态变化的调控机制

基于酰亚胺取代苯并二噻吩衍生物的聚合物受体光伏材料的合成与性能研究

HMGA2：一个潜在预测乳腺癌患者阿霉素治疗疗效的标记物及其分子机理的研究

手性硼催化研究

相似国自然基金