Spatial audio signal compression and reconstruction is an important research direction in the multimedia application field of future immersive communication, interactive entertainment, 3D audio and video, etc. which tends to be influenced by multiple factors such as channel, object, time, frequency, etc. Large scale and high dimension space audio data poses challenges for compression and reconstruction technology, while tensor analysis has natural advantages to process the multi-factor signals. The project aims to research on proper modeling, efficient compressing and effective reconstructing of multi-channel and multi-object spatial audio signal. The research proposes a method of modeling high order spatial audio signal based on tensor analysis theory. Tensor decomposition technique is introduced for multi-channel and multi-object spatial audio coding and tensor data mining principle is used for multichannel audio reconstruction under channel missing condition. Finally, both the perceptual principles of spatial audio and the constraints of tensor theory are studied in depth to increase the compression efficiency and the reconstruction effect. The project provides novel modeling method and research approach for spatial audio signal processing with critical theoretical and practical significance.
空间音频信号压缩与重建是未来临场感通信、交互娱乐、三维音视频等多媒体应用领域的重要研究方向,其往往受到声道、对象、时间、频率等多种因素的共同影响,大规模和高维度的空间音频数据对压缩和重建技术提出了挑战,而张量分析在处理多因素信号问题上具有天然的优势,能够充分挖掘空间音频的稀疏和低秩特点。本研究将致力于多声道和多对象空间音频的合理建模、高效压缩与有效重建关键问题,提出基于张量分析理论构建空间音频信号的高阶张量模型,通过引入张量分解技术对多声道音频及空间音频对象进行压缩编码,利用张量数据挖掘原理实现丢失声道情况下的空间音频重建,进一步结合空间音频特点和张量约束条件来提高压缩效率和重建效果,从而为空间音频信号处理研究领域提供新的建模方法和分析思路,具有重要的理论和应用意义。
随着人们对视听享受要求的不断提高,3D影音、3D游戏等逐步走入人们的日常生活,由此引发三维音视频技术的研究和应用需求。音频信号也由最初的单声道,不断发展到立体声及面向更多声道的空间音频,从而逐渐成为新的数字音频媒体传播形式。随着声道数目、音频对象等因素的增多,传统空间音频信号处理方法变得越加复杂,不能带来更可观的压缩效率和重建效果。.. 项目提出了基于张量分解的空间音频信号编解码技术框架,包括张量空间音频建模以及基于张量分析的空间音频信号分解和重构方法,主客观实验表明在多声道音频数据上编解码性能表现良好;针对空间音频多元化特点,结合张量分析对面向对象的空间音频信号进行建模,并研究了张量模型对面向对象的空间音频编码的扩展性。此外,项目基于张量分析设计实现了麦克风阵列语音信号降噪方法,实验表明基于张量分解的阵列子空间方法表现最优。. 项目研究了基于张量丢失数据模型的空间音频重建。首先构建了空间音频的张量丢失数据模型,针对多声道音频信号丢失声道的问题,研究张量分解和张量补全两种方法的数据恢复性能,实验表明后者在主客观评价性能上均优于张量分解方法。此外,项目还基于此探究了利用张量补全数据恢复方法在HRTF数据信息的预测应用,实验取得了较好的效果。. 项目结合Tucker分解和Tensor Train的优点,采用低秩张量近似,将高维HRTF数据信息表示为低维空间的特征,在同为95%的压缩率下,重建质量优于传统PCA和其它张量方法。项目还研究了三维音频的关键技术及主客观评价方法,提出一种基于数据挖掘机理的两层结构模型评价方法,主客观一致性提高了30.7%。. 项目首次提出引入高阶张量分析来对空间音频信号进行合理建模、高效压缩和有效重建,深入研究空间音频信号的张量分析理论,其约束条件低秩性、稀疏性等在上述研究中均有体现,此外,结合目前热门的深度学习,在无参考客观质量评价应用上做了初步的探索,为后续的研究提供了思路和结果上的参考。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于分形维数和支持向量机的串联电弧故障诊断方法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
基于空间相关性的3D音频聚类分组压缩技术研究
基于冗余字典和感知压缩的空间音频对象编码
基于距离感知的3D音频空间参数压缩研究
基于空间挤压的可升级环绕音频编码技术研究