具有情感的可视语音中基于耦合关系的音视频关联方法的研究

基本信息

批准号：61105076

项目类别：青年科学基金项目

资助金额：22.00

负责人：陈雁翔

学科分类：

依托单位：合肥工业大学

批准年份：2011

结题年份：2014

起止时间：2012-01-01 - 2014-12-31

项目状态：已结题

项目参与者：任福继,李琳,唐益明,解剑,刘盛中

关键词：

可视语音音视频关联情感计算耦合关系

结项摘要

自然和谐的人机交互离不开计算机对听觉、视觉、情感等多源感知信息的融合。本项目结合人类交互时具有的多模态综合信息处理能力，围绕着不同耦合关系下的音视频关联特性和方法展开深入研究。针对可视语音中音视频非同步关联关系的描述问题，研究建立基于发音特征的非同步关联模型，利用发音机理揭示了音视频非同步关联的深层次成因。通过对语音和面部情感特征的分析与选择，提出了在与长时情感信息有关的全局层次和刻画情感时变特性的局部层次上进行音视频关联特性的研究，为采取合理的音视频关联方法提供了有力的依据。以此为基础，在全局层次上，研究基于语句耦合的音视频决策融合；在局部层次上，研究基于语段耦合的音视频最优相关，这种细致的分层次的双模态情感信息处理比传统的单一层次的处理有更大的优越性。本项目研究对构筑自然和谐的人机交互界面具有积极的推动作用，其研究成果可应用于医学辅助系统、教学辅助系统、多媒体和数字娱乐等领域。

项目摘要

音视频关联特性的研究是实现具有情感的可视语音识别与合成的关键。本项目利用发音机理揭示了音视频非同步关联的深层次成因，通过可视语音和情感信息相结合，发展了基于全局和局部的分层次双模态情感信息处理机制，对音视频关联方法及其在情感计算中的应用做了深入研究。本项目针对听觉和视觉这两种信息通道之间的关联性展开研究，涉及生理学、神经科学等多个领域，研究内容包含音视频情感识别、音视频情感表达、音视频感知等方面。.在识别方面，通过发音机理研究，用发音特征描述音视频之间非同步关联关系，建立可视语音中基于发音特征的音视频非同步关联模型。提出了在全局和局部两个层次上进行音视频关联的方法，在局部层次上提出基于最大熵和互信息的音视频最优相关分析，在全局层次上进行音视频决策级融合，实验表明，细致的分层次的双模态情感信息处理比传统的单一层次的处理有更大的优越性。.在合成方面，本项目提出了通过PAD情感模型对合成系统进行参数修正，并采用基于音素时序-动态视素时序的关联方法，根据学习获取的含情感韵律的语音特征到人脸动画参数（FAP）的映射关系，采用基于动态贝叶斯网络的发音特征模型（Articulatory Feature Model），实现了松弛的音视频时序同步关系，即在给定的约束边界上音视频需严格满足同步对应，而在约束边界之间允许音视频非同步关联，更符合人类发音机理和对上下文的考虑，从而更有利于获得和谐对应的可视语音表达。.本项目从认知角度出发就音频感知对视觉的影响开展了工作，此外，语谱图作为语音的可视化表达方式，可以将声音信号通过图像方式直观地表现出来，并应用于音视频感知研究。利用其图像化的语音特征关系，获取音频信号的关注点，感知音频场景的突出区域，以图像领域的Itti显著性关注模型为原型，通过模拟人耳的听觉感应过程，对音频信号提取强度及频带等特征，并在全局语谱图和子带语谱图中，提取图像强度、方向性显著图，通过显著图的叠加综合，获得基于语谱图的语音显著性区域，开辟了基于语谱图的音视频关联的一种新模式。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.3969/j.issn.1000-0844.2017.05.0820

发表时间：2017

DOI：10.11897/SP.J.1016.2018.00886

发表时间：2018

DOI：10.7507/1672-2531.202012076

发表时间：2021

DOI：10.14006/j.jzjgxb.2018.0676

发表时间：2021

陈雁翔的其他基金

批准号：61672201

批准年份：2016

资助金额：62.00

项目类别：面上项目

相似国自然基金

基于动态图形模型和音视频的情感识别方法的研究

批准号：60673190

批准年份：2006

负责人：詹永照

学科分类：F0209

资助金额：23.00

项目类别：面上项目

具有表现力的可视语音合成的研究

批准号：60575032

批准年份：2005

负责人：陶建华

学科分类：F0304

资助金额：23.00

项目类别：面上项目

基于情感上下文的视觉语音多模态协同情感分析方法研究

批准号：61272211

批准年份：2012

负责人：毛启容

学科分类：F0209

资助金额：78.00

项目类别：面上项目

基于维度模型的情感语音建模及生成方法研究

批准号：61203258

批准年份：2012

负责人：潘诗锋

学科分类：F0605

资助金额：25.00

项目类别：青年科学基金项目

具有情感的可视语音中基于耦合关系的音视频关联方法的研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

智能煤矿建设路线与工程实践

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

WMTL-代数中的蕴涵滤子及其应用

口腔扁平苔藓研究热点前沿的可视化分析

带球冠形脱空缺陷的钢管混凝土构件拉弯试验和承载力计算方法研究

陈雁翔的其他基金

基于音视频关联的交叉感知驱动选择性注意机制研究

相似国自然基金