基于张量分解的电声门图语音双模情感识别研究

基本信息

批准号：61603013

项目类别：青年科学基金项目

资助金额：18.00

负责人：陈立江

学科分类：

依托单位：北京航空航天大学

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：毛峡,嚴洪,景少玲,冯涛,李昊,王岚

关键词：

语音情感识别张量分解电声门图

结项摘要

Emotion Recognition of Speech is one of the key technologies in the field of Affective Computing. There are two problems to solved in speech emotion recognition technology: One is the mutual interference between the variety of information contained in speech signals (identity, content and emotion); The other is the impact of environmental noise. This paper intends to establish a tensor model, combined with higher-order singular value decomposition, to analysis all the information contained in the speech signal as a complete object, reducing or eliminating mutual interference between different types of information; intends to combine the voice and EGG to reduce or remove noise when speech is being spread in the air; finally trials a dual-mode emotion recognition system combined speech and EGG. The ultimate goal of this project is to realize the speaker-independent and content-independent robust speech emotion recognition. Research results of this subject can also be used for both voice-print recognition and speech recognition. It is of great significance and practical application potential.

语音情感识别是情感计算领域的关键技术之一。语音信号中多种信息（身份、内容以及情感）相互干扰以及环境噪声的影响是现有语音情感识别技术亟待解决的两个难题。本课题拟建立张量模型，结合高阶奇异值分解，综合考虑语音信号中包含的各种信息，减少或去除不同类型信息之间的相互干扰；拟将语音与电声门图相结合，减少或避免语音在空气中传播时受到的噪声影响；最后试制电声门图语音双模情感识别系统。本课题的最终目标是实现说话人身份无关且说话内容无关的鲁棒的语音情感识别。本课题的研究成果同时适用于声纹识别及语音识别，具有重大的研究意义和实际应用潜力。

项目摘要

本研究利用EGG信号，并基于张量分解对语音进行整体分析，旨在减少语音情感识别中身份、内容信息以及噪声的干扰，提高语音情感识别率。.根据计划书，本项目在EGG语音双模数据库建设、语音情感特征、情感识别方法以及情感识别系统建设方面展开研究。在数据库建设方面，1）EGG和语音双模情感数据库的自动标注，完成了EGG和语音双模情感数据库的重音自动标注研究；2）结合EGG信息的语音分离研究，完成了两人说话的语音分离。在语音情感特征方面，3）融合重音特征与声学特征的语音情感识别研究，我们在基于传统声学特征和新提出的重音特征上构建一个语音情感识别框架；4）基于张量分解的语音情感和语义特征分析，提出了一种基于co-cluster的特征选择算法，在特征有效性和时间复杂度上都有较大优势。在情感识别方法方面，5）语音离散类别到维度情感值的自动标注方法，在这项工作中，与未优化的预测标签相比，本研究将一致性相关系数（CCC）值提高了平均0.104（激活度）和0.051（效价度）；6）基于一维二维深度网络的语音情感识别，构造了两个卷积神经网络和长短期记忆（CNN LSTM）网络，一个1D CNN LSTM网络和一个2D CNNLSTM网络，以分别从语音和对数梅尔声谱图中学习与局部和全局情感相关的特征；7)多输入深度网络的语音情感识别，设计了一个合并的卷积神经网络（CNN），以从原始音频片段和对数梅尔声谱图中学习高级功能。在情感识别系统方面，8）噪声环境下基于图全变差的连续语音情感预测，提出了一种新颖的个性化情绪预测模型，该模型在不同的嘈杂环境中得到了验证；9）电声门图采集装置研究，通过软硬件的复杂结合以及人工智能算法，可以在复杂的环境中，有效解决背景噪声、混响、回声等的影响；10）声纹识别研究，基于 Android 操作系统，提取声纹特征，达到识别说话人的效果。.项目计划书中的研究内容已全部完成。本项目的研究成果在数据库建设、语音特征提取、情感计算具有重要意义。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.13437/j.cnki.jcr.2015.01.003

发表时间：2015

DOI：10.3778/j.issn.1673-9418.2104120

发表时间：

DOI：

发表时间：2018

陈立江的其他基金

相似国自然基金

基于认知机理的情感语音识别基础研究

批准号：61371193

批准年份：2013

负责人：张雪英

学科分类：F0111

资助金额：78.00

项目类别：面上项目

基于不平衡学习的语音情感识别研究

批准号：61806078

批准年份：2018

负责人：李冬冬

学科分类：F0606

资助金额：26.00

项目类别：青年科学基金项目

基于几何约束张量分解的语音半盲分离方法研究

批准号：61105008

批准年份：2011

负责人：龚晓峰

学科分类：F0304

资助金额：25.00

项目类别：青年科学基金项目

基于压缩感知的鲁棒性语音情感识别研究

批准号：61203257

批准年份：2012

负责人：张石清

学科分类：F0605

资助金额：24.00

项目类别：青年科学基金项目

基于张量分解的电声门图语音双模情感识别研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于多色集合理论的医院异常工作流处理建模

基于改进LinkNet的寒旱区遥感图像河流识别方法

扩散张量成像对多发性硬化脑深部灰质核团纵向定量研究

基于直观图的三支概念获取及属性特征分析

相关系数SVD增强随机共振的单向阀故障诊断

陈立江的其他基金

相似国自然基金