三维音频中空间方位信息感知编码关键技术研究

基本信息
批准号:61201169
项目类别:青年科学基金项目
资助金额:25.00
负责人:王晓晨
学科分类:
依托单位:武汉大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:张聪,董石,杭波,刘梦颖,王汪,冯新桓,杨姗姗
关键词:
空间信息感知感知失真测度信源编码三维音频编码
结项摘要

As the rapid development of 3D audio technology based on the Multi-speaker playback, MPEG started to develop the 3D Audio standard. 3D audio technology has been a new hot spot. Compared with the traditional surrounding audio, the Key point of the 3D audio encoding system is the Reproducibility of 3D direction sense. As a result, encoding the spatial information is the core part of the 3D audio encoding system. Researchers are shown that the spatial information perception threshold for different directions and frequencies, the spatial information perception threshold differs up to 40 times to the human ear, so that 3D audio spatial information encoding based on the perception is the key point for 3D audio high-performance encoding. This project aim to the less consideration for the perceptual characteristics of the audio space information among the current multi-channel coding techniques, try to solve the problem that substantial distortion of perception of spatial information during compressing. Based on the existing spatial auditory experiment, we expand the traditional entropy theory to the calculation of the amount of space perception information and then build the perceived spatial information measure model to bring out the distortion measure of the perception spatial information. Moreover, we finish the design of perception spatial information quantizer in order to study spatial bit allocation algorithm under the perceived distortion. Finally, we build up the spatial information encoding framework based on the perception, which is expected to further improve the subjective performance of the current 3D audio encoder. The research achievements aspire to be the support technologies of relevant standard, so as to provide technical support for performance bottlenecks of the 3D audio encoding.

基于多音箱回放的3D音频技术快速发展,MPEG开始制订3D音频标准,3D音频技术已成为新的热点。相较于传统环绕声,3D音频的关键就是其对三维空间方位感的重现,因此空间信息编码是3D音频编码系统的核心。研究显示人耳对不同方位、频率的空间信息感知阈值相差可达40倍,因此基于感知的3D音频空间信息编码成为3D音频高性能编码的关键。本项目针对现有多声道编码技术缺少对声音空间信息感知特性的考虑,在追求压缩率时空间信息感知失真过大的问题,在已有空间听觉实验的基础上,将传统感知熵理论拓展到空间可感知信息量的计算,建立可感知空间信息度量模型,给出基于感知的空间信息失真测度,完成基于感知的空间信息量化器设计,研究感知失真条件下空间信息比特分配算法,最终构建基于感知的空间信息编码框架,预期可进一步改善现有3D音频编码器主观性能,研究成果渴望成为相关标准的支撑技术,为解决当前3D音频编码的性能瓶颈提供技术支撑。

项目摘要

相比于传统环绕声,3D音频的关键就是其对三维空间方位感的重现,因此空间信息编码是3D音频编码系统的核心。研究显示人耳对不同方位、频率的空间信息感知阈值相差可达40倍,因此基于感知的3D音频空间信息编码成为3D音频高性能编码的关键。. 为探索空间方位线索感知特性和机理,本项目设计出全新的高度角听觉阈值测量系统的实验装置,通过大量的听音实验,获得25个 bark 带、5种高度角的听觉阈值数据,为三维音频空间信息压缩提供基础数据和核心技术支撑。基于人耳听音原理,本项目将利用人耳对空间信息分辨率有限的特性,将感知分辨率引入基于香农信息论的感知信息量计算模型,建立了基于双耳线索和高度角的可感知信息度量模型。基于实验获取的数据和感知信息度量模型,本项目在传统失真测度的基础上引入人耳对空间方位信息的感知特性,建立新的失真测度。在此基础上提出全方位空间参数非均匀感知编码方法,并结合MPEG环绕声标准实现了基于空间感知的三维音频编解码器,还设计了方位和距离参数的量化方法,最终建立三维音频空间信息编码框架。与MPEG Surround进行主客观测试对比,空间参数噪掩比降低了约40%,主观MUSHRA得分平均提高约4分。本项目设计的编码框架进一步改善了现有3D音频编码器主观性能,为解决当前3D音频编码的性能瓶颈提供技术支撑。此外,项目组针对当前多声道音频压缩编码技术中并未充分考虑声源的空间位置对不同声道间信号相关性的影响,导致目前多声道分组编码时,相关性较强信号不能同组处理导致效率低下,非相关信号同组处理又产生混叠的问题,提出了一种低复杂度地对3D音频信号进行分组的空间聚类方法,解决了传统“欠分组”和“过分组”引起的效率下降和音质损失问题。与不分组进行的多声道矩阵编码相比,相同码率下SNR平均提高0.8dB。. 本项目实施过程中,在本领域相关会议和期刊上共发表科研论文17篇,其中在ICASSP、PCM等音频编码和声学研究领域的国际顶级会议发表论文7篇,在SCI检索的高水平国际期刊上发表论文2篇,在中国通信、通信学报等国内顶级学报和高水平期刊上发表文章10篇。申请人及项目组成员共申请国家发明专利9项,其中授权1项,受理8项。提交国家标准提案4项,其中M3240号提案被AVS工作组采纳为AVS面向语音音频应用的下一代AVS编解码框架。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

多空间交互协同过滤推荐

多空间交互协同过滤推荐

DOI:10.11896/jsjkx.201100031
发表时间:2021
5

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020

王晓晨的其他基金

批准号:21504019
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:21602114
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:21606066
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:21871147
批准年份:2018
资助金额:64.00
项目类别:面上项目
批准号:91754203
批准年份:2017
资助金额:290.00
项目类别:重大研究计划
批准号:51304017
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:31630018
批准年份:2016
资助金额:266.00
项目类别:重点项目
批准号:51773046
批准年份:2017
资助金额:58.00
项目类别:面上项目
批准号:81202098
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:91956106
批准年份:2019
资助金额:75.00
项目类别:重大研究计划

相似国自然基金

1

基于冗余字典和感知压缩的空间音频对象编码

批准号:61171171
批准年份:2011
负责人:应忍冬
学科分类:F0117
资助金额:56.00
项目类别:面上项目
2

基于空间挤压的可升级环绕音频编码技术研究

批准号:61201197
批准年份:2012
负责人:贾懋珅
学科分类:F0101
资助金额:25.00
项目类别:青年科学基金项目
3

跨尺度空间全方位三维激光传感原理与关键技术研究

批准号:61771336
批准年份:2017
负责人:吴斌
学科分类:F0114
资助金额:16.00
项目类别:面上项目
4

基于内容的音频信息检索关键技术研究

批准号:60672163
批准年份:2006
负责人:韩纪庆
学科分类:F0113
资助金额:28.00
项目类别:联合基金项目