多模态视听注意预测及体验质量评价研究

基本信息

批准号：61901260

项目类别：青年科学基金项目

资助金额：28.50

负责人：闵雄阔

学科分类：

依托单位：上海交通大学

批准年份：2019

结题年份：2022

起止时间：2020-01-01 - 2022-12-31

项目状态：已结题

项目参与者：

关键词：

多模态视听注意多媒体图像质量评价体验质量

结项摘要

Visual and hearing are two major sources of human beings to obtain information from the outside world, and multimedia systems generally contain both visual and audio media. However, most of the current multimedia processing techniques focus on single modality signals and ignore the interactions between multimodal audio and video signals. Considering this, this project intends to conduct research on multimodal audio-visual attention prediction and quality of experience assessment. Specifically, we plan to carry out research from the following three aspects. (1) We explore the mechanism of audio-visual attention fusion, research the influence of the audio on visual attention when watching videos, and analyze the influence mechanism. (2) Based on the above audio-visual fusion mechanism, we detect and integrate spatial, temporal and audio saliencies from the multimodal audio and video signals, and construct a multimedia audio-visual joint attention model. (3) Applying the above audio-visual attention fusion mechanism and joint attention model, we analyze the audio and video quality of experience from both spatial and temporal perspectives, and construct an audio-visual quality of experience model. The above three aspects of research contents are progressive and follow a bottom-up and unified “mechanism-model-application” research route. The whole study can promote the research of multimodal audio-visual attention and quality of experience. The relevant research results can be used to guide multimodal audio and video signal processing, monitor and improve the audio and video quality of experience, which have important theoretical significance and practical value.

视觉和听觉是人类从外界获取信息的主要来源，而多媒体系统也通常包含视频和音频，然而当前的多媒体处理技术大多只聚焦于单一模态的信号，而忽略了音视频多模态信号之间的相互影响。鉴于此，本项目拟开展多模态视听注意预测及体验质量评价研究，具体拟开展三方面工作：(1)探索视听注意融合机理，研究观看视频时音频对视觉注意的影响，并分析其影响机制；(2)以上述视听融合机理为基础，由音视频多模态信号检测并融合空间、运动及听觉显著图，从而构建多媒体视听联合注意力模型；(3)应用上述视听融合机理及联合注意力模型，从空间及时序两方面来对音视频体验质量进行联合分析，进而构建音视频体验质量评价模型。以上研究内容层层递进，遵循自底向上的“机理-模型-应用”一体化研究思路，整个研究能够推进多模态视听注意及体验质量研究的发展，相关研究成果可用于指导音视频多模态信号处理，监测及提升音视频体验质量，具有重要的理论意义和实用价值。

项目摘要

当前的多媒体处理技术大多只聚焦于单一模态的信号，而忽略了音视频多模态信号之间的相互影响。本项目围绕视听注意融合机理、视听联合注意预测、音视频体验质量评价等三个方面的内容，在理论、模型和应用层面都取得了一定的研究成果：1）研究了音频对视觉注意的影响，探索了视听注意融合机理；2）构建了融合音频的视听注意模型，预测了音视频多媒体的视听注意；3）开展了音视频联合质量评价研究，进行了音视频体验质量评价联合建模。本项目成果应用于全国电视节目技术质量奖“金帆奖”的4K节目客观评测、腾讯视频“臻彩视听”相关产品线的视频画质增强效果评价、哔哩哔哩流媒体视频体验质量评价等。项目全面推进了多模态视听注意预测及体验质量评价相关研究的发展。. 在完成上述研究内容基础上，本项目执行期内共发表学术论文36篇，包括SCI期刊19篇，会议论文17篇，其中IEEE/ACM汇刊等权威期刊及CCF A类会议论文23篇，获授权发明专利12项，协助培养博士研究生2名，硕士研究生3名。本项目成果荣获中国图象图形学学会技术发明一等奖（2022）、中国电子学会全国优博（2020）、IEEE Transactions on Multimedia最佳论文提名奖（2021）、IEEE BMSB最佳论文奖（2022）、ICME MMC最佳论文奖（2019）、IEEE ICIP监控视频质量评价挑战赛冠军（2022）、IEEE ICME用户生成视频质量评价挑战赛冠军（2021），项目负责人入选2022年上海市浦江人才计划。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3788/CJL201946.0801003

发表时间：2019

闵雄阔的其他基金

相似国自然基金

注意缺陷多动障碍儿童的注意俘获神经机制多模态脑成像研究

批准号：81101018

批准年份：2011

负责人：王苏弘

学科分类：H1008

资助金额：22.00

项目类别：青年科学基金项目

移动互联网中支持隐私保护的服务需求及体验质量预测研究

批准号：61772560

批准年份：2017

负责人：邝砾

学科分类：F0207

资助金额：62.00

项目类别：面上项目

面向HMD的高动态范围立体全向视频视觉体验质量评价

批准号：61871247

批准年份：2018

负责人：蒋刚毅

学科分类：F0116

资助金额：66.00

项目类别：面上项目

基于三理汇通的虚拟现实体验质量评价研究

批准号：61871283

批准年份：2018

负责人：杨嘉琛

学科分类：F0116

资助金额：63.00

项目类别：面上项目

多模态视听注意预测及体验质量评价研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

针对弱边缘信息的左心室图像分割算法

基于多色集合理论的医院异常工作流处理建模

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于腔内级联变频的0.63μm波段多波长激光器

闵雄阔的其他基金

相似国自然基金