汉藏双语个性化多语种语音合成中的语言建模的研究

基本信息
批准号:61263036
项目类别:地区科学基金项目
资助金额:45.00
负责人:杨鸿武
学科分类:
依托单位:西北师范大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:甘振业,郭威彤,雒鹏,裴东,鲁小勇,赵高超,吴红利,赵涛涛,宋文龙
关键词:
汉藏双语语音合成语言独立模型语言自适应变换特征音空间多语种语音合成
结项摘要

Polyglot speech synthesis, which can synthesize the speeches of different languages with the same speaker's voice, is a distinct field of research in multilingual speech processing. Because polyglot speech synthesis is closely related to languages, state-of-art researches are focusing on the languages such as English, Chinese and Japanese which have successfully developed speech synthesis technology, and there are lack of researches on polyglot speech synthesis for synthesizing mixed languages of Mandarin, Chinese minority languages such as Tibetan and Chinese dialects such as Lan-yin Mandarin Dialect due to the differences between different languages. In order to solve the above deficiencies, the proposal will focus on the polyglot speech synthesis of Mandarin, Tibetan which is the major minority language in Tibetan district and Gansu province, as well as Lan-yin Mandarin Dialect which is the major dialect in Gansu province. A set of language independent models will be trained by analyzing the similarities and differences between Madarin,Tibetan and Lan-yin Mandarin dialect. The target language models will be obtained from the language independent models by the language adaptation transformation. At the same time, an eigenvoice space will be learned by selecting the principal components of the voice characteristics from the speeches of different speakers. The speaker dependent model is then obtained by transforming the speaker independent model of the target language by the speaker adaptation transformat via the eigenvoice space. A Hidden Markov Model (HMM) based statictic parametric speech synthesis is realized to generate speech parameters from the speak dependent model of the target language for synthesizing the speech of Mandarin, Tibetan Lhasa Dialect, Tibetan Amdo Dialect and Lan-yin Mandarin dialect with various voice characteristics of different speakers. The proposed work will not only enrich the research on polyglot speech synthesis and develop the experimental phonetic research on Tibetan and Lan-yin dialect, but also promote the researches of language information processing in Gansu province and Tibetan region. In addition, the achievements of the work can be applied to Chinese-Tibetan spoken language processing system, Chinese-Tibetan bilingual teaching, human-computer interaction, entertainments and other fields. Therefore the research has important theoretical significance and application value.

多语种语音合成技术能够合成同一说话人说不同语言的语音,是多种语言语音处理中的重要研究内容。由于多语种语音合成的研究与语言密切相关,现有的研究主要针对语音合成技术比较成熟的汉语、日语、英语等语言展开,缺乏面向汉语普通话、少数民族语言以及方言的多语种语音合成的研究。针对此不足,本项目以普通话、藏族地区主要使用的藏语和甘肃省的兰银官话方言为对象,展开多语种语音合成的研究。通过分析多语种语音合成中语言之间的异同,建立语言独立的声学模型,利用语言自适应变换,获得目标语言模型;通过分析说话人说不同语言时的语音特征,建立表征说话人语音个性特色的特征音空间,并引入到说话人自适应变换中;利用统计参数语音合成技术,实现有个性特色的普通话、藏语和兰银官话的多语种语音合成。本项目能丰富藏语、兰银官话的语音处理研究和多语种语音合成的研究,促进藏族地区和甘肃省的语言信息处理研究的发展,有重要的理论意义和应用价值。

项目摘要

跨语言的语音合成能够利用同一个语音合成系统合成出不同语言的语音,成为了目前的研究热点,对促进方言和民族语言语音技术的发展有着重要的意义。但是,目前国内外的研究中,并没有一个完整的普通话/民族语言或普通话/方言的多语种语音合成系统。本项目以实现汉语普通话/藏语拉萨方言/兰音官话方言的跨语言语音合成为研究目标,在汉藏双语有情感表现力的个性特色语音合成、藏语可视语音合成、手语到汉藏双语转换、语音信号处理等方面取得了如下的成果。.1.实现了普通话/藏语/兰州方言跨语言语音合成上下文相关标注生成。设计了一套用于标注普通话/藏语/兰州方言声韵母的机读音标方案、一套面向统计参数语音合成的汉语/藏语/兰州方言的上下文相关的标注格式和一套用于对声学模型进行聚类的决策树问题集。提出了一种新的韵律边界预测算法。在此基础上,实现了普通话/藏语/兰州方言的上下文相关标注生成。.2.提出了一种实现普通话/藏语/兰州方言的跨语言语音合成方法。采用基于隐Markov模型的统计参数语音合成方法,以声韵母作为语音合成基元,利用多说话人的普通话大语料和单说话人的藏语/兰州方言小语料,通过说话人自适应训练获得语言无关的平均声学模型,利用说话人自适应变换获得目标语言的具有说话人个性特色的说话人相关模型,从而实现了利用同一个系统合成出不同语言和说话人的语音合成。对合成系统进行的大量的主客观评测表明,该方法能够利用少量的藏语或兰州方言的训练语句即可合成出音质较好的藏语或兰州方言语音,表明该方法对于训练语料难以获取的民族语言和方言的语音合成具有重要的意义。.3.对普通话/藏语/兰州方言的跨语言语音合成展开了应用研究。利用普通话情感训练语料实现了普通话/藏语的跨语言情感语音合成,利用该方法可实现缺少情感训练语料的语言的情感语音合成具。实现了手语到普通话/藏语的转换以及藏语可视语音合成。.4.展开了项目相关的语音信号处理算法研究。提出了一种新的语音增强算法和一种新的语音共振峰提取算法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

杨鸿武的其他基金

批准号:60875015
批准年份:2008
资助金额:29.00
项目类别:面上项目
批准号:11664036
批准年份:2016
资助金额:42.00
项目类别:地区科学基金项目

相似国自然基金

1

汉藏双语跨语言语音转换中的关键技术研究

批准号:61262055
批准年份:2012
负责人:甘振业
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
2

基于深度学习的汉藏双语语音合成的研究

批准号:11664036
批准年份:2016
负责人:杨鸿武
学科分类:A2305
资助金额:42.00
项目类别:地区科学基金项目
3

西藏地区藏汉双语数学教学中的语言问题研究

批准号:11926413
批准年份:2019
负责人:巴桑卓玛
学科分类:A0101
资助金额:20.00
项目类别:数学天元基金项目
4

面向汉藏机器翻译的大规模双语语料库构建技术研究

批准号:61063033
批准年份:2010
负责人:才让加
学科分类:F0211
资助金额:33.00
项目类别:地区科学基金项目