语音结构事件检测是从语流中自动检测出诸如非流利区域、句边界、话题边界等语音结构线索的任务,是确保口语翻译、人机对话、语音检索等后续任务性能的重要前提。本项目突破现有方法局限,探索适合中文及跨语种(Multilingual)语音结构事件检测的新方法和新途径。首先,放弃现有各种语音结构事件单独建模的框架,利用动态贝叶斯网络模型(DBN)强大的建模能力,为多种相关的语音结构事件进行统一协同建模,更为真实、准确的反映不同事件之间的关系,进而大幅提高语音结构事件的检测效果。其次,充分利用中文语言的特点,提出更为适合中文语音结构事件检测的韵律特征和词汇特征。在跨语种语音结构事件检测工作上,放弃传统方法中需要大量语料资源与工具的做法,从提取跨语种通用韵律特征、直接在语音信号上挖掘结构事件线索等方面,研究高效、只需少量资源的新方法。通过本项目研究,大大提高语音结构事件检测效果。
语音结构事件检测是从语流中自动检测出诸如非流利区域、句边界、话题边界等语音结构线索的任务,是确保口语翻译、人机对话、语音检索等后续任务性能的重要前提。本项目旨在突破现有方法局限,探索适合中文及跨语种语音结构事件检测的新方法和新途径,研究内容包括韵律与词汇特征提取、结构事件建模与多模态融合研究,无监督、跨语种结构事件检测研究。主要研究成果包括:(1)在韵律与词汇特征研究方面,研究表明,基频特征受中文声调影响在句子分割上的效果不明显。为此,我们提出了基于声调归一化的基频特征,提高了基频特征的有效性。此外尝试了多种DBN模型进行特征提取和融合,其中包括CRF、LE、主题模型和长时内在谱分析等,实验表明这些模型在句边界检测、主题分割、语音关键词检测方面具有良好效果。(2)在结构事件建模方面尝试了多种DBN模型,其中包括图割(NCUTS)、距离相关中国餐馆过程(ddCRP)、深度神经网络(DNN)等,其中ddCRP可以自动从数据中学习出主题的个数,对主题进行无监督的分割。(3)在多模态多系统融合方面,以基于样例的关键词检测任务为例,尝试了动态时间规整算法(DTW)和symbolic search算法相融合的方法,并提出局部匹配策略,连续参加MediaEval QUESST评测任务,获得了2014年度第二名和2015年度第一名的好成绩。(4)在无监督、跨语种结构事件检测方面,提出了基于声级TextTiling的主题边界检测方法、基于密度峰值聚类算法的无监督语音单元发现方法和基于HDP-HMM的无监督语音声学单元分割方法,探寻在音素、主题等结构事件检测方面有效的无监督方法,均取得良好效果。此外,将DP-GMM应用于无监督声学模型的并行推断及可行性分析,参加Interspeech2015 Zerospeech挑战,提交的DP-GMM的系统在所有系统中获得了得分第一名的好成绩,同时获得挑战赛最佳论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
低轨卫星通信信道分配策略
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于全模式全聚焦方法的裂纹超声成像定量检测
基于子空间迁移学习的跨语种语音情感识别研究
汉藏双语个性化多语种语音合成中的语言建模的研究
基于结构建模的语音理解及应用研究
面向小数据语音建模的跨语言迁移学习研究