基于声学空间非线性流形结构的低资源语音识别

基本信息
批准号:61403415
项目类别:青年科学基金项目
资助金额:25.00
负责人:张文林
学科分类:
依托单位:中国人民解放军战略支援部队信息工程大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:屈丹,陈琦,牛铜,陈斌,杨绪魁,范正光
关键词:
多语言特征提取混合因子分析多语言声学模型低资源语音识别非线性流形
结项摘要

The performance of modern speech recognition systems depends heavily on the availability of sufficient training data. However, collecting and transcribing a large amount of speech data is difficult and expensive for many languages. This project aims at developping high performance acoustic models for low resource languages, which is a worldwide hot topic and the key technology for real world large-scale application. Starting from the nonlinear manifold structure of the speech signal, a compact and robust acoustic model can be obtained, with low requirement of transcribed training data. Combining feature level and model level out-of-demain data borrowing strategies, the performance can be further improved. The main research contents are as follows. (1) Using multiple low dimensional linear models to approximate the nonlinear manifold of the high dimensional feature space, a probabilistic generative model can be obtained for the acoustic feature vectors. Robust parameter estimation algorithm will be derived using nonparametric and parametric Bayesian methods. (2) Based on compressive sensing principle on that manifold, a compact acoustic model can be established. Using discriminative trianing and regularization method, the model parameters can be estimated robustly in the case of insufficient training data. (3) Research on multilinugal nerual network based features and compare their nonlinear manifold acoustic models through experiments. (4) Research on multilingual nonlinear manifold acoustic model and its semi-supervised training method. Through the above research, the performance of speech recognition system under low resource condition will be improved substantially. This study is of great theoretical significance and application value.

现阶段建立一个高性能语音识别系统严重依赖于大量的标注训练语料,当语料不足时,系统性能急剧下降。然而实际应用中,对于某些语言,其标注语料的获取是非常困难的。本项目针对这一问题,研究低资源条件下连续语音识别系统的声学建模技术。这既是目前国际上的研究热点,也是语音识别大规模实用化的关键技术之一。本项目从语音信号的流形结构特点出发,构建高稳健的声学模型;从特征层和模型层研究其集外数据利用策略,提高系统识别性能。研究内容如下:(1) 利用多个低维线性模型对高维空间非线性流形进行逼近,研究声学特征的非线性流形建模;(2)基于流形上的压缩感知原理,研究非线性流形声学模型及其稳健性参数估计;(3) 研究基于神经网络的多语言特征及其非线性流形声学模型;(4) 研究多语言非线性流形声学模型及其半监督训练算法。通过以上研究成果,大大提高低资源条件下语音识别系统的稳健性和识别率,具有重大的理论意义和应用价值。

项目摘要

本项目针对低资源条件下训练数据量不足,导致语音识别系统性能下降问题,一方面从特征空间流形结构出发,研究紧致的声学建模方法,降低训练数据量需求;另一方面,从特征层和模型层研究集外数据利用策略,提高系统的识别率和稳健性。整个研究按计划进行,按质按量地完成了研究工作,获得多项有价值的成果:(1)利用多个局部线性因子分析模型对特征空间非线性流形结构进行逼近,得到一种基于混合因子分析的声学特征非线性流形撒模型,该模型可较好的对声学特征的先验分布进行建模;(2)基于此模型,利用流形上的压缩感知原理,建立声学模型,推导了各参数的最大似然估计公式及最大后验区分性训练算法,大大减少了模型参数数量,提高了参数估计稳健性。(3)在特征层面,提出了两种适合于低资源条件的多语言深度神经网络特征提取方法,一种是基于改进的共享隐含结构的瓶颈特征提取方法,另一种是基于凸非负矩阵分解的隐含层特征提取方法,相对于低层特征参数,两者性能均有所提升,前者适合于多语言训练条件,后者适合于单语言训练条件。(4)针对方言识别问题,提出采用基于知识蒸馏的迁移学习方法,在高资源声学模型基础上,利用少量方言数据,自适应得到新的声学模型,提高了低资源条件下方言语音识别性能;(5)在训练数据利用方面,提出两种数据扩展策略:一是采用语速扰动扩充训练数据,二是采用初始模型对无标注数据进行识别,将置信度高的识别结果加入训练集重新训练。两者相结合获得最佳识别性能。通过以上研究成果,大大提高了实际应用中低资源条件下,语音识别系统的识别准确率和稳健性。. 采用本项目研究成果,构建了格鲁吉亚语和阿拉伯语方言语音识别系统,前者参加了OpenKWS2016国际关键词检测出语音识别评测,在40小时标注数据条件下,平均词错误率为40.7%,排名第四;后者参加了MGB2017国际阿位伯语方言语音识别评测,在4.8小时自适应标注数据下,平均词错误率为40.96%,排名第二。. 在本项目研究过程中,发表或录用期刊26篇(SCI检索2篇)、会议论文4篇,申请国家发明专利2项,培养博士研究生4名,硕士研究生6名,各项指标超过项目计划要求。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

张文林的其他基金

相似国自然基金

1

低数据资源下语音识别系统中声学建模方法研究

批准号:61601187
批准年份:2016
负责人:张伟彬
学科分类:F0117
资助金额:22.00
项目类别:青年科学基金项目
2

基于贝叶斯网络的语音识别精细结构声学建模的研究

批准号:60402029
批准年份:2004
负责人:欧智坚
学科分类:F0111
资助金额:21.00
项目类别:青年科学基金项目
3

低资源连续语音识别中的集外词处理技术

批准号:61673395
批准年份:2016
负责人:屈丹
学科分类:F0605
资助金额:62.00
项目类别:面上项目
4

基于声学场景先验的远讲语音识别前端研究

批准号:61601453
批准年份:2016
负责人:王晓飞
学科分类:F0117
资助金额:22.00
项目类别:青年科学基金项目