自然和谐的人机交互离不开计算机对听觉、视觉、情感等多源感知信息的融合。本项目结合人类交互时具有的多模态综合信息处理能力,围绕着不同耦合关系下的音视频关联特性和方法展开深入研究。针对可视语音中音视频非同步关联关系的描述问题,研究建立基于发音特征的非同步关联模型,利用发音机理揭示了音视频非同步关联的深层次成因。通过对语音和面部情感特征的分析与选择,提出了在与长时情感信息有关的全局层次和刻画情感时变特性的局部层次上进行音视频关联特性的研究,为采取合理的音视频关联方法提供了有力的依据。以此为基础,在全局层次上,研究基于语句耦合的音视频决策融合;在局部层次上,研究基于语段耦合的音视频最优相关,这种细致的分层次的双模态情感信息处理比传统的单一层次的处理有更大的优越性。本项目研究对构筑自然和谐的人机交互界面具有积极的推动作用,其研究成果可应用于医学辅助系统、教学辅助系统、多媒体和数字娱乐等领域。
音视频关联特性的研究是实现具有情感的可视语音识别与合成的关键。本项目利用发音机理揭示了音视频非同步关联的深层次成因,通过可视语音和情感信息相结合,发展了基于全局和局部的分层次双模态情感信息处理机制,对音视频关联方法及其在情感计算中的应用做了深入研究。本项目针对听觉和视觉这两种信息通道之间的关联性展开研究,涉及生理学、神经科学等多个领域,研究内容包含音视频情感识别、音视频情感表达、音视频感知等方面。.在识别方面,通过发音机理研究,用发音特征描述音视频之间非同步关联关系,建立可视语音中基于发音特征的音视频非同步关联模型。提出了在全局和局部两个层次上进行音视频关联的方法,在局部层次上提出基于最大熵和互信息的音视频最优相关分析,在全局层次上进行音视频决策级融合,实验表明,细致的分层次的双模态情感信息处理比传统的单一层次的处理有更大的优越性。.在合成方面,本项目提出了通过PAD情感模型对合成系统进行参数修正,并采用基于音素时序-动态视素时序的关联方法,根据学习获取的含情感韵律的语音特征到人脸动画参数(FAP)的映射关系,采用基于动态贝叶斯网络的发音特征模型(Articulatory Feature Model),实现了松弛的音视频时序同步关系,即在给定的约束边界上音视频需严格满足同步对应,而在约束边界之间允许音视频非同步关联,更符合人类发音机理和对上下文的考虑,从而更有利于获得和谐对应的可视语音表达。.本项目从认知角度出发就音频感知对视觉的影响开展了工作,此外,语谱图作为语音的可视化表达方式,可以将声音信号通过图像方式直观地表现出来,并应用于音视频感知研究。利用其图像化的语音特征关系,获取音频信号的关注点,感知音频场景的突出区域,以图像领域的Itti显著性关注模型为原型,通过模拟人耳的听觉感应过程,对音频信号提取强度及频带等特征,并在全局语谱图和子带语谱图中,提取图像强度、方向性显著图,通过显著图的叠加综合,获得基于语谱图的语音显著性区域,开辟了基于语谱图的音视频关联的一种新模式。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于分形维数和支持向量机的串联电弧故障诊断方法
基于二维材料的自旋-轨道矩研究进展
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于动态图形模型和音视频的情感识别方法的研究
具有表现力的可视语音合成的研究
基于情感上下文的视觉语音多模态协同情感分析方法研究
基于维度模型的情感语音建模及生成方法研究