Speech emotion recognition has been a hot topic in Artificial Intelligence research area. Good progresses have been made with machine learning, especially the method of supervised learning based speech emotion classification. However, the phenomenon of data imbalance involved in emotional speech is always a problem to supervised learning, which may lead to offsets in the determined boundaries. This research proposes new methods against the issues in speech emotion recognition, from three layers of sampling, features, and classification strategies, based on imbalanced learning frameworks. The research focuses on: 1) designing Boosting based dynamic sampling model, in sample layer; 2) researching the differences and imbalances between different acoustic characteristics for different categories of emotions, designing a feature weighted algorithm based on information entropy, in feature layer; 3) utilizing the misclassification cost of emotion categorizations in every iteration, designing a deep neutral network model based on cost sensitivity, in modeling learning layer; 4) designing an ensemble learning method with multiple scales and views, in integrated strategies layer.This research intends to break through the limitations of the current processing mechanisms for imbalanced learning, propagate the applications of speech emotion recognition, and proposes a new mindset for harmonious human-machine interactions.
语音情感识别是人工智能领域的一个热点研究问题。基于机器学习的方法,特别是基于监督学习的语音情感分类方法,取得了较好的成绩。然而,情感语音的不平衡对有监督的学习方法总是存在问题,导致判别边界偏移。本项目是基于不平衡学习的语音情感识别框架下展开的创新性理论构造与方法设计。本项目基于所构建的不平衡学习框架,从样本、特征与分类策略三个层面设计针对语音情感识别问题的新方法。研究的重点包括:1)在样本层设计基于Boosting的单边动态下采样模型;2)在特征层研究不同语音特征对不同类别情感的支持度的差异性和不平衡性,设计基于信息熵的特征加权算法;3)在模型参数学习层设计基于代价敏感的深度神经网络模型,利用每次迭代中误分类代价修正模型参数;4)在集成策略层设计多尺度多视角的集成学习方法。本项目的研究成果力图突破现有不平衡数据处理机制的局限,推广语音情感识别的实际
本项目探索了情感语音数据的不平衡特性及其对情感分类性能的影响,通过在情感语音识别过程中引入不平衡学习,从样本层面,特征层面以及模型层面开展了相关研究,充分考虑情感语音数据自身的数据分布特点,实现语音中情感的正确感知。本项目研究内容紧扣人工智能与情感计算研究的关键,是智能人机交互领域的前沿课题。项目取得如下主要成果:.1.在数据预处理层面,在剖析现有的基于情感先验知识的采样策略基础上,针对动态单边下采样进行创新,结合Boosting集成算法,使其变为基于Boosting的集成动态采样算法,提高其针对不平衡问题的分类性能。.2.在特征层面上研究不同语音特征对不同类别情感的支持度的差异性和不平衡性,提出了一种基于情绪类别的特征权重(ECFW)方法,旨在找出不同情绪下每个特征的显著性,并将其作为先验知识。.3.在模型参数学习层面上设计了具有方向性自我注意的双向长-短记忆(BLSTM-DSA)算法,利用语音帧的自相关来解决信息的不足,通过自动标注语音帧的权值,从而在时态网络中正确选择包含情感信息的语音帧。.4.在模型集成策略层面,提出了BLSTM和CNN叠加结构(BCSA)来提高情绪识别能力。.上述成果主要以学术论文与发明专利形式呈现,基于此项目已发表国际期刊论文14篇,中文核心期刊论文2篇;授权国家发明专利1项,公开国家发明专利2项;培养毕业硕士生4人。 研究成果在教育行业、医疗行业、服务行业等领域具有广阔的应用背景和重要的研究意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于子空间迁移学习的跨语种语音情感识别研究
基于认知机理的情感语音识别基础研究
基于多模态情感识别技术的情感学习模型研究
基于压缩感知的鲁棒性语音情感识别研究