Emotion Recognition of Speech is one of the key technologies in the field of Affective Computing. There are two problems to solved in speech emotion recognition technology: One is the mutual interference between the variety of information contained in speech signals (identity, content and emotion); The other is the impact of environmental noise. This paper intends to establish a tensor model, combined with higher-order singular value decomposition, to analysis all the information contained in the speech signal as a complete object, reducing or eliminating mutual interference between different types of information; intends to combine the voice and EGG to reduce or remove noise when speech is being spread in the air; finally trials a dual-mode emotion recognition system combined speech and EGG. The ultimate goal of this project is to realize the speaker-independent and content-independent robust speech emotion recognition. Research results of this subject can also be used for both voice-print recognition and speech recognition. It is of great significance and practical application potential.
语音情感识别是情感计算领域的关键技术之一。语音信号中多种信息(身份、内容以及情感)相互干扰以及环境噪声的影响是现有语音情感识别技术亟待解决的两个难题。本课题拟建立张量模型,结合高阶奇异值分解,综合考虑语音信号中包含的各种信息,减少或去除不同类型信息之间的相互干扰;拟将语音与电声门图相结合,减少或避免语音在空气中传播时受到的噪声影响;最后试制电声门图语音双模情感识别系统。本课题的最终目标是实现说话人身份无关且说话内容无关的鲁棒的语音情感识别。本课题的研究成果同时适用于声纹识别及语音识别,具有重大的研究意义和实际应用潜力。
本研究利用EGG信号,并基于张量分解对语音进行整体分析,旨在减少语音情感识别中身份、内容信息以及噪声的干扰,提高语音情感识别率。.根据计划书,本项目在EGG语音双模数据库建设、语音情感特征、情感识别方法以及情感识别系统建设方面展开研究。在数据库建设方面,1)EGG和语音双模情感数据库的自动标注,完成了EGG和语音双模情感数据库的重音自动标注研究;2)结合EGG信息的语音分离研究,完成了两人说话的语音分离。在语音情感特征方面,3)融合重音特征与声学特征的语音情感识别研究,我们在基于传统声学特征和新提出的重音特征上构建一个语音情感识别框架;4)基于张量分解的语音情感和语义特征分析,提出了一种基于co-cluster的特征选择算法,在特征有效性和时间复杂度上都有较大优势。在情感识别方法方面,5)语音离散类别到维度情感值的自动标注方法,在这项工作中,与未优化的预测标签相比,本研究将一致性相关系数(CCC)值提高了平均0.104(激活度)和0.051(效价度);6)基于一维二维深度网络的语音情感识别,构造了两个卷积神经网络和长短期记忆(CNN LSTM)网络,一个1D CNN LSTM网络和一个2D CNNLSTM网络,以分别从语音和对数梅尔声谱图中学习与局部和全局情感相关的特征;7)多输入深度网络的语音情感识别,设计了一个合并的卷积神经网络(CNN),以从原始音频片段和对数梅尔声谱图中学习高级功能。在情感识别系统方面,8)噪声环境下基于图全变差的连续语音情感预测,提出了一种新颖的个性化情绪预测模型,该模型在不同的嘈杂环境中得到了验证;9)电声门图采集装置研究,通过软硬件的复杂结合以及人工智能算法,可以在复杂的环境中,有效解决背景噪声、混响、回声等的影响;10)声纹识别研究,基于 Android 操作系统,提取声纹特征,达到识别说话人的效果。.项目计划书中的研究内容已全部完成。本项目的研究成果在数据库建设、语音特征提取、情感计算具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于认知机理的情感语音识别基础研究
基于不平衡学习的语音情感识别研究
基于几何约束张量分解的语音半盲分离方法研究
基于压缩感知的鲁棒性语音情感识别研究