基于DBN协同建模的中文及跨语种语音结构事件检测研究

基本信息
批准号:61175018
项目类别:面上项目
资助金额:59.00
负责人:谢磊
学科分类:
依托单位:西北工业大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:蒋冬梅,付中华,周祥增,王晓暄,芦咪咪,田霄海,李冰锋,郑李磊,赵亚丽
关键词:
语音结构事件检测语音识别句边界检测话题边界检测非流利语音检测
结项摘要

语音结构事件检测是从语流中自动检测出诸如非流利区域、句边界、话题边界等语音结构线索的任务,是确保口语翻译、人机对话、语音检索等后续任务性能的重要前提。本项目突破现有方法局限,探索适合中文及跨语种(Multilingual)语音结构事件检测的新方法和新途径。首先,放弃现有各种语音结构事件单独建模的框架,利用动态贝叶斯网络模型(DBN)强大的建模能力,为多种相关的语音结构事件进行统一协同建模,更为真实、准确的反映不同事件之间的关系,进而大幅提高语音结构事件的检测效果。其次,充分利用中文语言的特点,提出更为适合中文语音结构事件检测的韵律特征和词汇特征。在跨语种语音结构事件检测工作上,放弃传统方法中需要大量语料资源与工具的做法,从提取跨语种通用韵律特征、直接在语音信号上挖掘结构事件线索等方面,研究高效、只需少量资源的新方法。通过本项目研究,大大提高语音结构事件检测效果。

项目摘要

语音结构事件检测是从语流中自动检测出诸如非流利区域、句边界、话题边界等语音结构线索的任务,是确保口语翻译、人机对话、语音检索等后续任务性能的重要前提。本项目旨在突破现有方法局限,探索适合中文及跨语种语音结构事件检测的新方法和新途径,研究内容包括韵律与词汇特征提取、结构事件建模与多模态融合研究,无监督、跨语种结构事件检测研究。主要研究成果包括:(1)在韵律与词汇特征研究方面,研究表明,基频特征受中文声调影响在句子分割上的效果不明显。为此,我们提出了基于声调归一化的基频特征,提高了基频特征的有效性。此外尝试了多种DBN模型进行特征提取和融合,其中包括CRF、LE、主题模型和长时内在谱分析等,实验表明这些模型在句边界检测、主题分割、语音关键词检测方面具有良好效果。(2)在结构事件建模方面尝试了多种DBN模型,其中包括图割(NCUTS)、距离相关中国餐馆过程(ddCRP)、深度神经网络(DNN)等,其中ddCRP可以自动从数据中学习出主题的个数,对主题进行无监督的分割。(3)在多模态多系统融合方面,以基于样例的关键词检测任务为例,尝试了动态时间规整算法(DTW)和symbolic search算法相融合的方法,并提出局部匹配策略,连续参加MediaEval QUESST评测任务,获得了2014年度第二名和2015年度第一名的好成绩。(4)在无监督、跨语种结构事件检测方面,提出了基于声级TextTiling的主题边界检测方法、基于密度峰值聚类算法的无监督语音单元发现方法和基于HDP-HMM的无监督语音声学单元分割方法,探寻在音素、主题等结构事件检测方面有效的无监督方法,均取得良好效果。此外,将DP-GMM应用于无监督声学模型的并行推断及可行性分析,参加Interspeech2015 Zerospeech挑战,提交的DP-GMM的系统在所有系统中获得了得分第一名的好成绩,同时获得挑战赛最佳论文。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021

谢磊的其他基金

批准号:41572045
批准年份:2015
资助金额:70.00
项目类别:面上项目
批准号:60904039
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:41172061
批准年份:2011
资助金额:73.00
项目类别:面上项目
批准号:60802085
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:61100196
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:31170201
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:11275095
批准年份:2012
资助金额:88.00
项目类别:面上项目
批准号:51105299
批准年份:2011
资助金额:26.00
项目类别:青年科学基金项目
批准号:51479158
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:61671410
批准年份:2016
资助金额:58.00
项目类别:面上项目
批准号:61071129
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:61472185
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:31670207
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:71202070
批准年份:2012
资助金额:17.50
项目类别:青年科学基金项目
批准号:40902017
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:61374121
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:11904342
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:11702040
批准年份:2017
资助金额:27.00
项目类别:青年科学基金项目
批准号:61872174
批准年份:2018
资助金额:64.00
项目类别:面上项目
批准号:81603485
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:61571363
批准年份:2015
资助金额:60.00
项目类别:面上项目

相似国自然基金

1

基于子空间迁移学习的跨语种语音情感识别研究

批准号:61572009
批准年份:2015
负责人:郑文明
学科分类:F0605
资助金额:56.00
项目类别:面上项目
2

汉藏双语个性化多语种语音合成中的语言建模的研究

批准号:61263036
批准年份:2012
负责人:杨鸿武
学科分类:F0605
资助金额:45.00
项目类别:地区科学基金项目
3

基于结构建模的语音理解及应用研究

批准号:61300197
批准年份:2013
负责人:张剑
学科分类:F0206
资助金额:20.00
项目类别:青年科学基金项目
4

面向小数据语音建模的跨语言迁移学习研究

批准号:61901473
批准年份:2019
负责人:易江燕
学科分类:F01
资助金额:26.00
项目类别:青年科学基金项目