混合口音语音识别中自适应分层发音变异模型研究

基本信息

批准号：60975018

项目类别：面上项目

资助金额：27.00

负责人：刘轶

学科分类：

依托单位：清华大学

批准年份：2009

结题年份：2012

起止时间：2010-01-01 - 2012-12-31

项目状态：已结题

项目参与者：夏云庆,刘建,曹文晓,侯珏,张超,肖熙

关键词：

混合口音语音识别自适应分层发音变异模型

结项摘要

本课题提出并研究自适应分层发音变异模型在混合口音语音识别上的应用。根据混合口音发音变异的单方向性和非对称性特点，建立二维发音变异平面，采用置信度准则和非对称距离在多状态多高斯分布的模型上度量方法对变异程度的高低进行描述，构造四类发音变异模型子空间，实现发音变异模型的分层描述方法。同时，采用数据驱动和规则相结合及语音学和语言学知识相结合的方法，对基本发音单元构造自适应辅助决策树，实现发音变异模型对具有不同发音变异复杂度的自适应描述。由于发音变异不仅仅存在于口音中，也存在于各种自发式语音中，包括对话语音，讲座语音，访谈语音等。因此本课题的研究既针对语音识别技术的应用需求，也为口音及其他自发式语音识别研究提供新思路和新方法。

项目摘要

说话人口音的多样性，多态性和地方性是普遍存在的现象，这造成一般说话人的发音和标准发音存在较大的差异，形成声学层和语音层的发音变异，从而导致带口音语音识别性能的大幅度下降。本课题针对混合口音发音变异的灵活性和多样性，以中文语音为研究语言，建立了自适应分层发音变异模型，研究了发音变异声学层和语音层相互间的关联和区分关系以及他们与语音识别系统不同模块的结合方法，以及具有自适应能力的通用完备发音变异模型。该模型对不同类型的发音变异同时具有良好的覆盖能力和精细的区分能力，并通过实验论证自适应分层发音模型适用性和实用性。根据混合口音发音变异的单方向性和非对称性特点，建立二维发音变异平面，采用置信度准则和非对称距离在多状态多高斯分布的模型上度量方法对变异程度的高低进行描述，构造四类发音变异模型子空间，实现发音变异模型的分层描述方法。同时，采用数据驱动和规则相结合及语音学和语言学知识相结合的方法，对基本发音单元构造自适应辅助决策树，实现发音变异模型对具有不同发音变异复杂度的自适应描述。本课题完备了通用自适应分层发音模型对混合口音中的灵活多变的发音变异进行度量和描述方法，并建立与语音识别系统不同模块的结合方法，提高系统的识别率和鲁棒性。在基金的资助下，研究团队累计发表同行公认的高质量论文12篇，包括IEEE Transaction文章1篇和清华大学学报文章1篇，本领域最高水平的国际会议ICASSP和ASRU2篇等，并获得优秀学生论文2篇。通过本项目的研究，我们完成了重要的中文混合口音语音数据资源库，数据总量达到百小时，可以提供给训练测试等使用。申请并获得了国家专利1项，软件著作权1项，开发的部分支撑软件成果在实际的语音识别系统中得到了应用并取得了较好的效果，并初步应用到复杂环境下移动设备的鲁棒性语音识别系统中。在基金的资助下，2名硕士生获得了清华大学优秀毕业生称号，获得Google和语音联合会奖学金。在基金的资助下，本项研究全部达到了预期的研究目标，项目的研究思路和方法也可为口音及其他具有关联性的自发式语音识别研究提供宝贵的借鉴。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.13973/j.cnki.robot.210412

发表时间：2022

刘轶的其他基金

批准号：91641128

批准年份：2016

资助金额：59.00

项目类别：重大研究计划

批准号：21875086

批准年份：2018

资助金额：65.00

项目类别：面上项目

批准号：60873053

批准年份：2008

资助金额：30.00

项目类别：面上项目

相似国自然基金

基于发音特征的汉语语音识别分层解码方法研究

批准号：61503382

批准年份：2015

负责人：杨占磊

学科分类：F0605

资助金额：22.00

项目类别：青年科学基金项目

面向混响环境的多口音语音识别研究

批准号：61771333

批准年份：2017

负责人：王龙标

学科分类：F0117

资助金额：62.00

项目类别：面上项目

云南民族口音汉语普通话语音识别研究

批准号：60265001

批准年份：2002

负责人：杨鉴

学科分类：F0605

资助金额：22.00

项目类别：地区科学基金项目

语速自适应参数模型及其在语音识别中的应用

批准号：60372092

批准年份：2003

负责人：范京

学科分类：F0111

资助金额：23.00

项目类别：面上项目

混合口音语音识别中自适应分层发音变异模型研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

基于自适应干扰估测器的协作机器人关节速度波动抑制方法

刘轶的其他基金

航空发动机碳氢燃料低污染燃烧反应机理的分子模拟研究

嵌段共聚物包覆的BiVO4纳米复合超粒子的构筑及肿瘤诊疗的研究

面向多核处理器的硬软件协作Transactional Memory系统结构

相似国自然基金