Efficient and accurate speech emotion recognition is essential to improve the naturalness of intelligent human-computer interaction, which could be represented by intelligent speech interaction. Aiming at the bottleneck of the performance of single modal speech emotion recognition in recent years, we propose to directly use phonation models to obtain the intrinsity description of voice emotion by exploring the physiological changes of emotional voice expressing. A combination of physical model and artificial intelligence algorithms is adopted in this project. Baseline physical models of the vocal organs are proposed on computational aeroacoustics methods, and they will be optimized using regression algorithms, aided by physiological signals from glottis and vocal tract of emotional speech as auxiliary information, which provides a practical solution for the vocalization physical model studies. On this basis, the Deep Belief Network (DBN) is adopted in parameter fusion and dimension reducing. With the emotional label of training data, a relationship mapping model of between the phonation physical model and the emotional expression pattern can be established. Based on this model, an efficient and accurate speech emotion recognition platform based on phonation physical model is constructed. By breaking through the bottleneck of the performance of speech emotion recognition, problems in intelligent interaction such as low naturalness or limited application scenarios, which are caused by the lack of emotional analysis in current intelligent human-computer interaction can be efficiently solved. It will promote the development of human-computer interaction.
高效准确的语音情感识别是提升以智能语音交互为代表的智能人机交互应用自然程度的重要因素。针对近年来单模态语音信号情感识别性能提升方面的瓶颈问题,本项目直接从语音发声模型入手,通过发掘情感引起的发声生理变化,获得对语音情感的本质特征描述。本项目采用物理模型与人工智能算法相结合的方式,基于计算气动声学建立发声器官基线物理模型,以情感发声生理信号为辅助信息,通过回归算法进行模型优化,为发声物理模型提供实用化的解决方案。在此基础上,利用深度置信网络对发声模型中的众多参数进行特征融合和降维,结合训练数据情感标签,生成发声物理模型与语音情感表达模式间的关联关系映射模型,并据此搭建高效准确的基于发声生理的语音情感识别平台,通过突破语音情感识别性能瓶颈,有效解决当前智能人机交互中由于情感分析缺失带来的自然度差,应用场景受限等问题,促进人机交互发展。
本项目致力于解决单模态语音信号情感识别性能受限问题,针对语音发声模型作为研究切入点,对语音发声的过程中的声门激励与声道滤波作用分别进行了研究。通过发声过程进行情感识别研究的主要目的是为了在不依赖诸如位置、光照条件等条件下,通过语音信号本身获取发声器官在情感表达过程中的发声信息,从而在单模态信号采集条件下获取多模态情感信息。针对情感语音发声激励的研究主要以声门波信号为信息载体,针对声道滤波作用的研究主要以电磁发声仪数据为信息载体,并在针对这两类信息载体信号进行研究的基础上进行反转研究,从而实现仅需语音信号的更准确的情感识别。.本项目首先设计并采集了包含声门激励与声道运动特性的专用情感语料库,以此数据库作为基础,进行了情感识别研究。研究表明,声门波以及电磁发声仪数据与语音信号配合时,或声门波与电磁发声仪数据两者配合成为双模态信号,均可以获得优于单一语音信号的情感识别性能,体现了在语音信号形成过程中,声门激励与声道作用信息均有部分丢失;当声门波与电磁发声仪数据同时与语音信号配合使用为三模态信号时,情感识别性能比双模态情况有进一步的提示,体现了声门激励与声道特性在生成语音信号的交互过程中仍能体现部分新的情感信息。含有生理信息的三模态信号比单模态语音的情感识别性能有8.37%的提升。.本项目的进一步研究为从语音信号中通过反转提取声门激励信号以及部分声道特性。研究表明,在以体现情感信息为目的时,通过逆滤波方法从语音信号中足够准确的提取声门波所需的最佳阶次高达40至62阶,远高于其它应用中所需的12至16阶。本项目中,采用Transformer网络从语音信号中提取声道特性,获得了较好的效果,能够保留大部分声道情感信息。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
语音信号中情感特征的分析与建模
维吾尔语情感语音合成关键技术研究
情感驱动的人机交互中文本语音情感信息耦合关键技术研究
面向小语种的高性能文本情感分析关键技术研究