面向大规模语料的蒙古语语音识别关键问题研究

基本信息

批准号：61762070

项目类别：地区科学基金项目

资助金额：37.00

负责人：马志强

学科分类：

依托单位：内蒙古工业大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：石宝,马瑞强,包力,谢秀兰,张力,李图雅,沈冀,刘燕凤

关键词：

深度神经网络声学模型流水线式计算语音识别语言模型

结项摘要

The application of GMM-HMM and N-Gram in Mongolian speech recognition has brought about the problems that the accurate rate is low and the training speed is slow. This project which is based on deep neural networks and hidden Markov model, combined with the changeable location of phoneme and the pronunciation of complex changes in the Mongolian phenomenon carries out the following studies. First, the MLLR-MAP feature extraction method, the model training problem and the unsupervised training of the deep belief network parameters under the large-scale corpus are carried out in the DNN-HMM acoustic model. Second, the study of the Mongolian language model based on the recurrent neural network is carried out to solve the problem of sparse data, low dependence on long distance data and high computational complexity and confusion in the study of the Mongolian language model. Third, we study the pipelined computing to solve the double stochastic gradient algorithm about the batch stochastic selection, transfer parameters through the networks on the basis of distributed computing, aiming at improving the training speed of deep neural networks. Finally we do contrast experiments about the model parameters of deep neural networks to determine the optimal model parameters of networks by building Kaldi toolbox; meanwhile, the experimental confirmation in the Hadoop Yarn platform about the pipelined computing of deep neural networks based on double asynchronous gradient rise and contrastive divergence algorithm is carried out. Thus, we can improve the Mongolian speech recognition accurate rate and the training speed of models and promote the information processing and application levels of minority languages.

针对蒙古语语音识别中应用GMM-HMM和N-Gram模型出现的语音识别正确率低、训练速度慢等问题，课题以深度神经网络和隐马尔科夫数学模型为基础，结合蒙古语音素位置变化多、发音变化复杂的现象，开展MLLR-MAP特征提取方法、模型训练过拟问题和大规模语料下网络参数无监督训练的DNN-HMM声学模型研究；开展基于循环神经网络的蒙古语语言模型的研究，解决数据稀疏、长距离数据依赖低和计算复杂度与困惑度高的问题；针对在大规模深层网络训练慢的问题，以分布式计算为基础，开展批量随机选择、网络参数传递、双随机梯度上升算法的流水线式计算研究。搭建Kaldi、Hadoop Yarn实验平台，通过对比实验确定网络最优参数；在大规模语料下对双异步随机梯度、对比散列等算法进行流水线式计算验证。通过以上问题的研究和解决，有效提高蒙古语语音识别的正确率和模型的训练速度，促进边疆地区少数民族语言信息化处理与应用水平。

项目摘要

蒙古语作为少数民族语言在内蒙古地区被广泛使用，开展蒙古语智能化应用研究有利于促进地区的繁荣发展。面对蒙古语发音地区差异性和构词多样性给深度神经网络语音识别建模带来的参数稀疏、泛化能力差、训练速度慢等挑战，课题组开展了（1）针对地区、性别和年龄发音差异，结合语言的使用领域，研究了蒙古语语料库构建方法与语音数据增广方法。（2）针对蒙古语语音识别模型训练中存在的参数稀疏性与长时间依赖性问题、端到端语音识别模型中异形同音词识别困难问题，以及建模中存在的欠拟合问题，构建了基于DNN-HMM与端到端框架的蒙古语语音识别模型，研究了蒙古语声学模型的结构与建模参数、循环神经网络的蒙古语语言模型结构和迁移训练方法。（3）针对蒙古语语音识别系统泛化能力差的问题，构建了说话人自适应的蒙古语语音识别系统，研究了基于I-Vector、D-Vector与MFCC、FBANK语音特征融合的方法。（4）针对大规模数据模型训练慢的问题，构建了基于流水线式框架与多GPU的模型训练平台，研究了分布式计算设备台数、GPU个数、数据集大小、DNN神经网络深度，以及训练时间之间的关系。. 通过研究，（1）构建了面向蒙古语语音识别任务的语料库IMUT-MC，包括10个地区417位说话人212小时的有标注语料和800小时的无标注语料。（2）定义了异构/同构深度神经网络的概念，提出基于DNN-HMM、BLSTM-CTC的蒙古语声学模型、MLMRNN蒙古语语言模型、基于Transformer的端到端模型结构，以及流水线式预训练算法；确定了蒙古语语音识别模型的最优网络结构、最优网络参数和最优建模参数。（3）提出异构蒙古语声学模型的参数迁移方法和基于CNN-CTC的蒙古语语音识别模型层迁移方法。（4）提出I-Vector资源融合模型、D-Vector特征变换模型和蒙古语说话人在线自适应模型。以上研究成果，既可以推动蒙古语在多语种语音交互、语音转写、机器翻译和智能设备控制等方面的应用，也可以为其他少数民族语言的智能化研究提供借鉴，进一步促进少数民族语言智能化研究水平提升。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

马志强的其他基金

批准号：41475135

批准年份：2014

资助金额：81.00

项目类别：面上项目

批准号：21672073

批准年份：2016

资助金额：65.00

项目类别：面上项目

批准号：41105092

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：71573109

批准年份：2015

资助金额：48.00

项目类别：面上项目

批准号：21871098

批准年份：2018

资助金额：64.00

项目类别：面上项目

相似国自然基金

面向蒙古语新闻语音的新事件检测方法研究

批准号：61563040

批准年份：2015

负责人：飞龙

学科分类：F0605

资助金额：38.00

项目类别：地区科学基金项目

噪声环境下鲁棒性蒙古语语音识别技术研究

批准号：61866030

批准年份：2018

负责人：张晖

学科分类：F0605

资助金额：37.00

项目类别：地区科学基金项目

蒙古语语音合成系统

批准号：68965001

批准年份：1989

负责人：敖其尔

学科分类：F0605

资助金额：3.00

项目类别：地区科学基金项目

面向电话语音的蒙古语关键词检测技术的研究

批准号：61263037

批准年份：2012

负责人：高光来

学科分类：F0605

资助金额：43.00

项目类别：地区科学基金项目

面向大规模语料的蒙古语语音识别关键问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

马志强的其他基金

京津冀地区臭氧背景值变化趋势及其影响因素研究

三萜spirochensilides的仿生合成

大气边界层结构对北京臭氧垂直输送的影响

全科医生服务价值实现的机理与策略研究

生物碱isopalhinine A的高效合成

相似国自然基金