The application of GMM-HMM and N-Gram in Mongolian speech recognition has brought about the problems that the accurate rate is low and the training speed is slow. This project which is based on deep neural networks and hidden Markov model, combined with the changeable location of phoneme and the pronunciation of complex changes in the Mongolian phenomenon carries out the following studies. First, the MLLR-MAP feature extraction method, the model training problem and the unsupervised training of the deep belief network parameters under the large-scale corpus are carried out in the DNN-HMM acoustic model. Second, the study of the Mongolian language model based on the recurrent neural network is carried out to solve the problem of sparse data, low dependence on long distance data and high computational complexity and confusion in the study of the Mongolian language model. Third, we study the pipelined computing to solve the double stochastic gradient algorithm about the batch stochastic selection, transfer parameters through the networks on the basis of distributed computing, aiming at improving the training speed of deep neural networks. Finally we do contrast experiments about the model parameters of deep neural networks to determine the optimal model parameters of networks by building Kaldi toolbox; meanwhile, the experimental confirmation in the Hadoop Yarn platform about the pipelined computing of deep neural networks based on double asynchronous gradient rise and contrastive divergence algorithm is carried out. Thus, we can improve the Mongolian speech recognition accurate rate and the training speed of models and promote the information processing and application levels of minority languages.
针对蒙古语语音识别中应用GMM-HMM和N-Gram模型出现的语音识别正确率低、训练速度慢等问题,课题以深度神经网络和隐马尔科夫数学模型为基础,结合蒙古语音素位置变化多、发音变化复杂的现象,开展MLLR-MAP特征提取方法、模型训练过拟问题和大规模语料下网络参数无监督训练的DNN-HMM声学模型研究;开展基于循环神经网络的蒙古语语言模型的研究,解决数据稀疏、长距离数据依赖低和计算复杂度与困惑度高的问题;针对在大规模深层网络训练慢的问题,以分布式计算为基础,开展批量随机选择、网络参数传递、双随机梯度上升算法的流水线式计算研究。搭建Kaldi、Hadoop Yarn实验平台,通过对比实验确定网络最优参数;在大规模语料下对双异步随机梯度、对比散列等算法进行流水线式计算验证。通过以上问题的研究和解决,有效提高蒙古语语音识别的正确率和模型的训练速度,促进边疆地区少数民族语言信息化处理与应用水平。
蒙古语作为少数民族语言在内蒙古地区被广泛使用,开展蒙古语智能化应用研究有利于促进地区的繁荣发展。面对蒙古语发音地区差异性和构词多样性给深度神经网络语音识别建模带来的参数稀疏、泛化能力差、训练速度慢等挑战,课题组开展了(1)针对地区、性别和年龄发音差异,结合语言的使用领域,研究了蒙古语语料库构建方法与语音数据增广方法。(2)针对蒙古语语音识别模型训练中存在的参数稀疏性与长时间依赖性问题、端到端语音识别模型中异形同音词识别困难问题,以及建模中存在的欠拟合问题,构建了基于DNN-HMM与端到端框架的蒙古语语音识别模型,研究了蒙古语声学模型的结构与建模参数、循环神经网络的蒙古语语言模型结构和迁移训练方法。(3)针对蒙古语语音识别系统泛化能力差的问题,构建了说话人自适应的蒙古语语音识别系统,研究了基于I-Vector、D-Vector与MFCC、FBANK语音特征融合的方法。(4)针对大规模数据模型训练慢的问题,构建了基于流水线式框架与多GPU的模型训练平台,研究了分布式计算设备台数、GPU个数、数据集大小、DNN神经网络深度,以及训练时间之间的关系。. 通过研究,(1)构建了面向蒙古语语音识别任务的语料库IMUT-MC,包括10个地区417位说话人212小时的有标注语料和800小时的无标注语料。(2)定义了异构/同构深度神经网络的概念,提出基于DNN-HMM、BLSTM-CTC的蒙古语声学模型、MLMRNN蒙古语语言模型、基于Transformer的端到端模型结构,以及流水线式预训练算法;确定了蒙古语语音识别模型的最优网络结构、最优网络参数和最优建模参数。(3)提出异构蒙古语声学模型的参数迁移方法和基于CNN-CTC的蒙古语语音识别模型层迁移方法。(4)提出I-Vector资源融合模型、D-Vector特征变换模型和蒙古语说话人在线自适应模型。以上研究成果,既可以推动蒙古语在多语种语音交互、语音转写、机器翻译和智能设备控制等方面的应用,也可以为其他少数民族语言的智能化研究提供借鉴,进一步促进少数民族语言智能化研究水平提升。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
面向蒙古语新闻语音的新事件检测方法研究
噪声环境下鲁棒性蒙古语语音识别技术研究
蒙古语语音合成系统
面向电话语音的蒙古语关键词检测技术的研究