Since the start of MPEG 3D Audio standardization process attract extensive attention of researchers in the field of 3D audio technology, the 3D perceptual audio processing technology has becoming the key technology and important research direction of achieving the efficient expression and reconstructed of the 3D audio information. The acquisition and playback system architecture of traditional 3D audio system which developed based on 2D technology is exceptionally complex, the requirement of mass data storage and transmission is multiplied, the 3D evaluation technology needs to be improved urgently. In response to these issues, this project intends to investigate the 3D spatial audio perception mechanism, establish spatial perception distortion model to explore the spatial sampling optimization method; develop the 3D spatial perception information measurement, establish the computational model of 3D audio orientation perception for effective representation of 3D audio parameterization; study the constraint mechanism of the speakers and the listening area, establish the 3D sound field uniform distribution model in order to expand the listening area of the sound field reproduction; Investigate the expression of elevation related information in 3D audio, analysis the duplex spectral effects of pinna, to further improve the technology of the 3D audio objective evaluation. basing on the above work, we can preliminarily establish the theory of technical system on the space acquisition, efficient parameter encoding, reproduction and evaluation of the sound field based on the perception of 3D audio, improve the compression efficiency and reproduction quality, promote the setting of 3D audio standards and the rapid development of industry.
MPEG启动3D音频标准化进程吸引了3D音频技术领域研究者的广泛关注,基于感知的3D音频处理技术已成为实现3D音频信息高效表达与重建的关键技术和重要研究方向。基于2D技术发展起来的传统3D音频系统采集与回放系统结构异常复杂,海量数据存储与传输资源需求倍增,3D评测技术亟待改进。针对上述问题,本课题拟研究3D空间音频感知机理,提出空间感知失真模型并探索空间采样优化方法;研究3D空间可感知信息量度量方法,建立3D音频方位可感知信息计算模型,给出3D音频参数化高效表达方法;研究扬声器和听音区域的约束机理,建立3D声场一致性分布模型以扩大重建声场的最佳听音区域;研究3D音频中高度信息表达能力,分析双工耳廓谱效应,进一步完善3D音频客观评价技术。通过上述工作初步建立基于感知的3D音频空间采集、高效参数编码、声场重建与评价的理论技术体系,提高信号压缩效率和重建质量,推动3D音频标准制定和产业快速发展。
传统3D音频系统能给听音者带来3D声场效果,但是扬声器数量太多,限制了其应用范围,系统精简导致空间参数的损失;3D音频系统重建中扬声器位置摆放主要依赖经验,并未开展扬声器位置优化方法的理论研究也未分析重建声场质量下降的内在机理;在码率受到实时转播带宽和存储媒介容量限制的情况下,传统参数编码会导致三维音频的空间方位感失真,空间声效质量会显著下降。3D空间音源距离信息恢复、扬声器组精简与优化和3D音频信号高效压缩技术,能够提高3D音频信号压缩效率和重建质量,推动3D音频标准制定和产业快速发展。在3D空间音源距离信息恢复方面:建立重建前后声源距离线索与方向线索一致的距离恢复模型,提升了距离感的恢复精度;提出基于球谐展开的Ambisonics音频距离重现方法。在扬声器精简与优化方面:构建基于声压和粒子速度的多声道系统全局最优化精简模型;提出保证双耳听音区域失真最小的3D多声道音频系统扬声器组精简算法。相关成果发表在国际权威会议(ICASSP,ICME);在3D音频信号高效压缩方面:基于感知灵敏度数据建立三维空间方位感知模型;提出全方位空间参数非均匀感知编码方法;构建符合人耳全方位感知特性的量化编码框架,空间参数量化比特数平均可降低40%以上。相关成果获湖北省科技进步一等奖。上述研究方向在该领域专利持有数均全国第一。其他方面:提出三维空间谐波系数转换方法,实现了三维空间上的多区域声场重放和多声源声场重建;搭建了国内首个3D音频实验室;致力于国际、国家及行业标准的制订,1项技术提案被AVS音频组采纳,参与制定的IEEE国际标准P1857.5正式发布。在本项目的实施过程中,在本领域期刊(IEEE Trans,JASA等)和国际会议(ICASSP、ICME等)上发表论文91篇,其中SCI论文13篇,EI论文84篇;申请发明专利37项,其中授权23项;培养博士研究生10名,硕士研究生46名,在读博士研究生6名,硕士研究生12名;参加本领域主流国际会议ICASSP、ICME等20余次,邀请德国弗里德里希-亚历山大教授、美国俄亥俄州立大学汪德亮教授等多名IEEE Fellow在内的国内外专家访问交流。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
采用深度学习的铣刀磨损状态预测模型
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
自组装短肽SciobioⅡ对关节软骨损伤修复过程的探究
移动音频编解码基础理论与关键技术
三维音频中空间方位信息感知编码关键技术研究
适于MPEG音频播放控制的音频水印关键技术研究
基于Web的音频识别与检索关键技术研究