混合口音语音识别中自适应分层发音变异模型研究

基本信息
批准号:60975018
项目类别:面上项目
资助金额:27.00
负责人:刘轶
学科分类:
依托单位:清华大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:夏云庆,刘建,曹文晓,侯珏,张超,肖熙
关键词:
混合口音语音识别自适应分层发音变异模型
结项摘要

本课题提出并研究自适应分层发音变异模型在混合口音语音识别上的应用。根据混合口音发音变异的单方向性和非对称性特点,建立二维发音变异平面,采用置信度准则和非对称距离在多状态多高斯分布的模型上度量方法对变异程度的高低进行描述,构造四类发音变异模型子空间,实现发音变异模型的分层描述方法。同时,采用数据驱动和规则相结合及语音学和语言学知识相结合的方法,对基本发音单元构造自适应辅助决策树,实现发音变异模型对具有不同发音变异复杂度的自适应描述。由于发音变异不仅仅存在于口音中,也存在于各种自发式语音中,包括对话语音,讲座语音,访谈语音等。因此本课题的研究既针对语音识别技术的应用需求,也为口音及其他自发式语音识别研究提供新思路和新方法。

项目摘要

说话人口音的多样性,多态性和地方性是普遍存在的现象,这造成一般说话人的发音和标准发音存在较大的差异,形成声学层和语音层的发音变异,从而导致带口音语音识别性能的大幅度下降。本课题针对混合口音发音变异的灵活性和多样性,以中文语音为研究语言,建立了自适应分层发音变异模型,研究了发音变异声学层和语音层相互间的关联和区分关系以及他们与语音识别系统不同模块的结合方法,以及具有自适应能力的通用完备发音变异模型。该模型对不同类型的发音变异同时具有良好的覆盖能力和精细的区分能力,并通过实验论证自适应分层发音模型适用性和实用性。根据混合口音发音变异的单方向性和非对称性特点,建立二维发音变异平面,采用置信度准则和非对称距离在多状态多高斯分布的模型上度量方法对变异程度的高低进行描述,构造四类发音变异模型子空间,实现发音变异模型的分层描述方法。同时,采用数据驱动和规则相结合及语音学和语言学知识相结合的方法,对基本发音单元构造自适应辅助决策树,实现发音变异模型对具有不同发音变异复杂度的自适应描述。本课题完备了通用自适应分层发音模型对混合口音中的灵活多变的发音变异进行度量和描述方法,并建立与语音识别系统不同模块的结合方法,提高系统的识别率和鲁棒性。在基金的资助下,研究团队累计发表同行公认的高质量论文12篇,包括IEEE Transaction文章1篇和清华大学学报文章1篇,本领域最高水平的国际会议ICASSP和ASRU2篇等,并获得优秀学生论文2篇。通过本项目的研究,我们完成了重要的中文混合口音语音数据资源库,数据总量达到百小时,可以提供给训练测试等使用。申请并获得了国家专利1项,软件著作权1项,开发的部分支撑软件成果在实际的语音识别系统中得到了应用并取得了较好的效果,并初步应用到复杂环境下移动设备的鲁棒性语音识别系统中。在基金的资助下,2名硕士生获得了清华大学优秀毕业生称号,获得Google和语音联合会奖学金。在基金的资助下,本项研究全部达到了预期的研究目标,项目的研究思路和方法也可为口音及其他具有关联性的自发式语音识别研究提供宝贵的借鉴。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018

相似国自然基金

1

基于发音特征的汉语语音识别分层解码方法研究

批准号:61503382
批准年份:2015
负责人:杨占磊
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
2

面向混响环境的多口音语音识别研究

批准号:61771333
批准年份:2017
负责人:王龙标
学科分类:F0117
资助金额:62.00
项目类别:面上项目
3

云南民族口音汉语普通话语音识别研究

批准号:60265001
批准年份:2002
负责人:杨鉴
学科分类:F0605
资助金额:22.00
项目类别:地区科学基金项目
4

语速自适应参数模型及其在语音识别中的应用

批准号:60372092
批准年份:2003
负责人:范京
学科分类:F0111
资助金额:23.00
项目类别:面上项目