基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

基本信息
批准号:61271360
项目类别:面上项目
资助金额:65.00
负责人:俞一彪
学科分类:
依托单位:苏州大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:吴红卫,胡剑凌,芮贤义,邵雷,朱春雷,李阳春,朱菁
关键词:
结构化统计声学模型多韵律模型非平行语料语音转换非联合训练
结项摘要

Voice conversion means convert speech of source speaker to that of target speaker. As one of the hotest research topics in speech processing, it is very significant for various applications. The most of current voice conversion system need parallel speech corpus of both source and target speaker for joint training of union speech model by which the transform function of spectrum is derived. But parallel corpus is quite difficult to get in practice, the joint traing of union speech model consumes much cumputational costs and make system inflexible for new users. This project focuses on research of innovative voice conversion technology without need of parallel speech corpus and joint training. The main contents are: (1) Structured statistical acoustic model of speaker vocie;(2) Matching and alignment of structured statistical acoustic model;(3) Transform function of speech spectrum;(4) Multi-prosody model and transform, control;(5) Objective and sunjective evaluation of trasform performance.

说话人语音转换在保持语义不变的前提下将源说话人的语音转换为目标说话人的语音,具有广泛的应用价值,也是当前语音处理研究领域的主要热点之一。目前,语音转换系统一般采用平行语料训练源-目标说话人联合语音模型,并由此推导语音转换公式。但是,实际应用中不仅难以得到平行语料,而且联合语音模型的训练需要语音的精确对准和大量的计算、系统扩展也相当不便。本课题旨在研究并提出一种有效的高性能非平行语料非联合训练说话人语音转换方法。主要研究内容包括:(1)说话人语音结构化统计声学模型的分析与研究;(2)说话人语音结构化统计声学模型之间的匹配与特征分布对准方法研究;(3)短时谱转换公式推导;(4)说话人语音多韵律模型与转换控制研究;(5)语音转换性能的主观与客观评价。

项目摘要

语音转换是实现自然人机交互和具有表现力的语音合成的重要技术之一,在智能机器人、语音伪装通信、动漫电影和数字多媒体配音、残疾人发音辅助等领域具有广泛的应用价值。语音转换的研究涉及声学、语音学、信号处理、模式识别和机器学习等多方面的理论知识,因此,项目研究对推动这些领域的理论和技术发展有重要意义。项目围绕非平行语料非联合训练条件下说话人语音转换问题,重点在以下几个方面进行了系统深入的分析与研究:(1)结构化统计声学模型的分析、建模、训练及其优化;(2)源和目标说话人的声学模型匹配与声学特征的对准;(3)说话人韵律特征的选择、提取和转换控制;(4)语音年龄特征的分析与说话人年龄的转换控制。提出的结构化高斯混合模型(SGMM)及其优化模型SGMM-ES、C-SGMM,将声学特征和内在结构特征融合在一个模型中,从而使得利用全局声学结构(AUS)进行模型的匹配成为可能。特别是C-SGMM,采用非平行语料包含的有限公共音节形成约束条件,改进了EM算法的初始化和迭代,进一步提升了模型的精度和语音转换性能。基于C-SGMM的语音转换系统,目标说话人识别率达到了92.25%,平均倒谱失真为0.52,目标倾向性指标ABX为0.82,语音质量MOS评分为3.45。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

俞一彪的其他基金

相似国自然基金

1

用于非对称语料的语音转换函数训练算法研究

批准号:61201301
批准年份:2012
负责人:简志华
学科分类:F0111
资助金额:24.00
项目类别:青年科学基金项目
2

面向非平行文本的说话人个性特征转换的关键技术及应用研究

批准号:61401227
批准年份:2014
负责人:李燕萍
学科分类:F0117
资助金额:24.00
项目类别:青年科学基金项目
3

非现场说话人认证语音真实性检测关键技术研究

批准号:61571192
批准年份:2015
负责人:贺前华
学科分类:F0117
资助金额:68.00
项目类别:面上项目
4

基于听觉感知模型的说话人识别和语音语种识别新方法研究

批准号:60572083
批准年份:2005
负责人:刘加
学科分类:F0111
资助金额:23.00
项目类别:面上项目