Polyglot speech synthesis, which can synthesize speeches of different languages with the same speaker’s voice, is a distinct field of research in multilingual speech processing. State-of-the-art researches on speech synthesis are focusing on the deep learning-based speech synthesis technology. However, there is lacking of researches on deep learning oriented speaker adaptive training and speaker adaptation transformation as well as deep learning-based polyglot speech synthesis. To solve these deficiencies, the proposal will focus on the polyglot speech synthesis of Tibetan and Mandarin to realize the deep learning-based polyglot speech synthesis. The feature-based speaker adaptive training and the model-based speaker adaptive training will be realized for deep learning by comparing the different deep architectures. The speaker adaptation transformation will be also studied by adopting GMM-HMM oriented speaker adaptation transformation algorithms. A set of uniform symbols will be designed to label the pronunciations of Tibetan and Mandarin. A set of language independent acoustic model of deep learning will be trained using speaker adaptive training with the training corpus of Tibetan and Mandarin. The target language’s speak dependent acoustic model of deep learning will be obtained by applying speaker adaptation transformation with the target languages training corpus. The target speaker’s speech of target language will be synthesized by the speaker dependent deep learning acoustic model. The proposed work will not only enrich the research on polyglot speech synthesis and deep learning-based speech synthesis, but also promote the researches of language information processing in the Tibetan region. In addition, the achievements of the work can be applied to Tibetan-Chinese spoken language processing system, Tibetan/Chinese multilingual teaching, human-computer interaction, entertainments and other fields. Therefore the proposed research has important theoretical significance and application value.
多语种语音合成能够合成同一说话人说不同语言的语音,是多种语言语音处理中的重要研究内容。近年来,基于深度学习的语音合成成为了研究热点,但现有的研究缺少面向深度学习的说话人自适应训练和说话人自适应变换的研究,也缺少基于深度学习的多语种语音合成的研究。针对此不足,项目以实现藏语/普通话的多语种语音合成为研究目标,展开基于深度学习的多语种语音合成的研究。通过考察不同的深度结构,利用基于特征和基于模型的说话人自适应训练实现面向深度学习的说话人自适应训练,利用面向GMM-HMM的说话人自适应变换实现面向深度学习的说话人自适应变换。在此基础上,设计藏语/普通话的统一标注,利用两种语言的多个说话人的语料,通过说话人自适应训练获得语言独立的声学模型,进而通过说话人自适应变换获得目标语言的声学模型,合成出目标语言的语音。本项目能够丰富多语种语音合成的研究,对促进藏族地区的语言信息处理的研究具有重要的意义。
项目以实现基于深度学习的普通话/藏语的多语种语音合成为目标,是对本团队多语种语音合成研究的深入和扩展。根据项目的研究计划,主要在以下几个方面开展研究。.首先,扩大了藏语语音语料库,进一步完善了面向藏语语音合成的藏语文本分析程序。结合藏语语言学研究成果,构建了一个较大规模适用于基于深度学习语音合成的藏语语料库。进一步完善了现有的藏语语音合成文本分析前端,该藏语语音合成文本分析前端可用于基于深度学习的普通话/藏语的多语种语音合成。.其次,搭建了基于深度学习的普通话和藏语单语种语音合成系统。对汉语和藏语,分别搭建了基于深度学习的统计参数语音合成和基于序列到序列(Sequence to Sequence,Seq2seq)的语音合成系统,作为基准系统。在基于深度学习的统计参数语音合成中,采用深度神经网络(Deep neural network, DNN)、长短时记忆(Long Short-Term Memory,LSTM)网络和双向长短时记忆(Bi-directional Long Short Term Memory,BLSTM)网络作为声学模型,实现了基于深度学习的说话人自适应训练算法。在基于Seq2seq的语音合成中,为了提升在低资源条件下对韵律信息的建模能力,提出了融合显式韵律信息的声学建模方法。.最后,研究了基于不同深度学习模型建模方法的普通话/藏语的多语种语音合成,包括DNN、LSTM、BLSTM、Seq2seq等。提出了3种上述深度学习模型下的普通话/藏语的多语种语音合成方法,包括基于跨语言自适应的普通话/藏语的多语种语音合成、基于多语言联合学习的普通话/藏语的多语种语音合成和基于元学习的普通话/藏语的多语种语音合成。.采用主、客观评价从合成语音的自然度、与目标语言的相似程度、与目标说话人的相似程度三个方面评价了上述语音合成方法的合成语音质量,结果表明,以上三种方法均能合成出质量较高的普通话和藏语语音。.项目的研究能够促进和发展语音合成技术以及藏族地区语言信息处理技术,也能够应用于汉藏双语的口语对话、双语教学、人机交互、多媒体信息处理以及数字娱乐等方面,具有重要的理论意义和应用价值。项目的部分研究成果,如构建的藏语语音合成语料库和实现的藏语语音合成系统,已被其他研究团队和相关单位使用。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
汉藏双语个性化多语种语音合成中的语言建模的研究
汉藏双语跨语言语音转换中的关键技术研究
西藏地区藏汉双语数学教学中的语言问题研究
基于Ad Hoc网络的救灾应急藏汉双语多媒体数据库质量控制研究