本课题提出并研究自适应分层发音变异模型在混合口音语音识别上的应用。根据混合口音发音变异的单方向性和非对称性特点,建立二维发音变异平面,采用置信度准则和非对称距离在多状态多高斯分布的模型上度量方法对变异程度的高低进行描述,构造四类发音变异模型子空间,实现发音变异模型的分层描述方法。同时,采用数据驱动和规则相结合及语音学和语言学知识相结合的方法,对基本发音单元构造自适应辅助决策树,实现发音变异模型对具有不同发音变异复杂度的自适应描述。由于发音变异不仅仅存在于口音中,也存在于各种自发式语音中,包括对话语音,讲座语音,访谈语音等。因此本课题的研究既针对语音识别技术的应用需求,也为口音及其他自发式语音识别研究提供新思路和新方法。
说话人口音的多样性,多态性和地方性是普遍存在的现象,这造成一般说话人的发音和标准发音存在较大的差异,形成声学层和语音层的发音变异,从而导致带口音语音识别性能的大幅度下降。本课题针对混合口音发音变异的灵活性和多样性,以中文语音为研究语言,建立了自适应分层发音变异模型,研究了发音变异声学层和语音层相互间的关联和区分关系以及他们与语音识别系统不同模块的结合方法,以及具有自适应能力的通用完备发音变异模型。该模型对不同类型的发音变异同时具有良好的覆盖能力和精细的区分能力,并通过实验论证自适应分层发音模型适用性和实用性。根据混合口音发音变异的单方向性和非对称性特点,建立二维发音变异平面,采用置信度准则和非对称距离在多状态多高斯分布的模型上度量方法对变异程度的高低进行描述,构造四类发音变异模型子空间,实现发音变异模型的分层描述方法。同时,采用数据驱动和规则相结合及语音学和语言学知识相结合的方法,对基本发音单元构造自适应辅助决策树,实现发音变异模型对具有不同发音变异复杂度的自适应描述。本课题完备了通用自适应分层发音模型对混合口音中的灵活多变的发音变异进行度量和描述方法,并建立与语音识别系统不同模块的结合方法,提高系统的识别率和鲁棒性。在基金的资助下,研究团队累计发表同行公认的高质量论文12篇,包括IEEE Transaction文章1篇和清华大学学报文章1篇,本领域最高水平的国际会议ICASSP和ASRU2篇等,并获得优秀学生论文2篇。通过本项目的研究,我们完成了重要的中文混合口音语音数据资源库,数据总量达到百小时,可以提供给训练测试等使用。申请并获得了国家专利1项,软件著作权1项,开发的部分支撑软件成果在实际的语音识别系统中得到了应用并取得了较好的效果,并初步应用到复杂环境下移动设备的鲁棒性语音识别系统中。在基金的资助下,2名硕士生获得了清华大学优秀毕业生称号,获得Google和语音联合会奖学金。在基金的资助下,本项研究全部达到了预期的研究目标,项目的研究思路和方法也可为口音及其他具有关联性的自发式语音识别研究提供宝贵的借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于发音特征的汉语语音识别分层解码方法研究
面向混响环境的多口音语音识别研究
云南民族口音汉语普通话语音识别研究
语速自适应参数模型及其在语音识别中的应用