多模态视听注意预测及体验质量评价研究

基本信息
批准号:61901260
项目类别:青年科学基金项目
资助金额:28.50
负责人:闵雄阔
学科分类:
依托单位:上海交通大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
多模态视听注意多媒体图像质量评价体验质量
结项摘要

Visual and hearing are two major sources of human beings to obtain information from the outside world, and multimedia systems generally contain both visual and audio media. However, most of the current multimedia processing techniques focus on single modality signals and ignore the interactions between multimodal audio and video signals. Considering this, this project intends to conduct research on multimodal audio-visual attention prediction and quality of experience assessment. Specifically, we plan to carry out research from the following three aspects. (1) We explore the mechanism of audio-visual attention fusion, research the influence of the audio on visual attention when watching videos, and analyze the influence mechanism. (2) Based on the above audio-visual fusion mechanism, we detect and integrate spatial, temporal and audio saliencies from the multimodal audio and video signals, and construct a multimedia audio-visual joint attention model. (3) Applying the above audio-visual attention fusion mechanism and joint attention model, we analyze the audio and video quality of experience from both spatial and temporal perspectives, and construct an audio-visual quality of experience model. The above three aspects of research contents are progressive and follow a bottom-up and unified “mechanism-model-application” research route. The whole study can promote the research of multimodal audio-visual attention and quality of experience. The relevant research results can be used to guide multimodal audio and video signal processing, monitor and improve the audio and video quality of experience, which have important theoretical significance and practical value.

视觉和听觉是人类从外界获取信息的主要来源,而多媒体系统也通常包含视频和音频,然而当前的多媒体处理技术大多只聚焦于单一模态的信号,而忽略了音视频多模态信号之间的相互影响。鉴于此,本项目拟开展多模态视听注意预测及体验质量评价研究,具体拟开展三方面工作:(1)探索视听注意融合机理,研究观看视频时音频对视觉注意的影响,并分析其影响机制;(2)以上述视听融合机理为基础,由音视频多模态信号检测并融合空间、运动及听觉显著图,从而构建多媒体视听联合注意力模型;(3)应用上述视听融合机理及联合注意力模型,从空间及时序两方面来对音视频体验质量进行联合分析,进而构建音视频体验质量评价模型。以上研究内容层层递进,遵循自底向上的“机理-模型-应用”一体化研究思路,整个研究能够推进多模态视听注意及体验质量研究的发展,相关研究成果可用于指导音视频多模态信号处理,监测及提升音视频体验质量,具有重要的理论意义和实用价值。

项目摘要

当前的多媒体处理技术大多只聚焦于单一模态的信号,而忽略了音视频多模态信号之间的相互影响。本项目围绕视听注意融合机理、视听联合注意预测、音视频体验质量评价等三个方面的内容,在理论、模型和应用层面都取得了一定的研究成果:1)研究了音频对视觉注意的影响,探索了视听注意融合机理;2)构建了融合音频的视听注意模型,预测了音视频多媒体的视听注意;3)开展了音视频联合质量评价研究,进行了音视频体验质量评价联合建模。本项目成果应用于全国电视节目技术质量奖“金帆奖”的4K节目客观评测、腾讯视频“臻彩视听”相关产品线的视频画质增强效果评价、哔哩哔哩流媒体视频体验质量评价等。项目全面推进了多模态视听注意预测及体验质量评价相关研究的发展。. 在完成上述研究内容基础上,本项目执行期内共发表学术论文36篇,包括SCI期刊19篇,会议论文17篇,其中IEEE/ACM汇刊等权威期刊及CCF A类会议论文23篇,获授权发明专利12项,协助培养博士研究生2名,硕士研究生3名。本项目成果荣获中国图象图形学学会技术发明一等奖(2022)、中国电子学会全国优博(2020)、IEEE Transactions on Multimedia最佳论文提名奖(2021)、IEEE BMSB最佳论文奖(2022)、ICME MMC最佳论文奖(2019)、IEEE ICIP监控视频质量评价挑战赛冠军(2022)、IEEE ICME用户生成视频质量评价挑战赛冠军(2021),项目负责人入选2022年上海市浦江人才计划。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

肉苁蓉种子质量评价及药材初加工研究

肉苁蓉种子质量评价及药材初加工研究

DOI:10.11842/wst.2017.02.019
发表时间:2017

闵雄阔的其他基金

相似国自然基金

1

注意缺陷多动障碍儿童的注意俘获神经机制多模态脑成像研究

批准号:81101018
批准年份:2011
负责人:王苏弘
学科分类:H1008
资助金额:22.00
项目类别:青年科学基金项目
2

移动互联网中支持隐私保护的服务需求及体验质量预测研究

批准号:61772560
批准年份:2017
负责人:邝砾
学科分类:F0207
资助金额:62.00
项目类别:面上项目
3

面向HMD的高动态范围立体全向视频视觉体验质量评价

批准号:61871247
批准年份:2018
负责人:蒋刚毅
学科分类:F0116
资助金额:66.00
项目类别:面上项目
4

基于三理汇通的虚拟现实体验质量评价研究

批准号:61871283
批准年份:2018
负责人:杨嘉琛
学科分类:F0116
资助金额:63.00
项目类别:面上项目