Voice conversion means convert speech of source speaker to that of target speaker. As one of the hotest research topics in speech processing, it is very significant for various applications. The most of current voice conversion system need parallel speech corpus of both source and target speaker for joint training of union speech model by which the transform function of spectrum is derived. But parallel corpus is quite difficult to get in practice, the joint traing of union speech model consumes much cumputational costs and make system inflexible for new users. This project focuses on research of innovative voice conversion technology without need of parallel speech corpus and joint training. The main contents are: (1) Structured statistical acoustic model of speaker vocie;(2) Matching and alignment of structured statistical acoustic model;(3) Transform function of speech spectrum;(4) Multi-prosody model and transform, control;(5) Objective and sunjective evaluation of trasform performance.
说话人语音转换在保持语义不变的前提下将源说话人的语音转换为目标说话人的语音,具有广泛的应用价值,也是当前语音处理研究领域的主要热点之一。目前,语音转换系统一般采用平行语料训练源-目标说话人联合语音模型,并由此推导语音转换公式。但是,实际应用中不仅难以得到平行语料,而且联合语音模型的训练需要语音的精确对准和大量的计算、系统扩展也相当不便。本课题旨在研究并提出一种有效的高性能非平行语料非联合训练说话人语音转换方法。主要研究内容包括:(1)说话人语音结构化统计声学模型的分析与研究;(2)说话人语音结构化统计声学模型之间的匹配与特征分布对准方法研究;(3)短时谱转换公式推导;(4)说话人语音多韵律模型与转换控制研究;(5)语音转换性能的主观与客观评价。
语音转换是实现自然人机交互和具有表现力的语音合成的重要技术之一,在智能机器人、语音伪装通信、动漫电影和数字多媒体配音、残疾人发音辅助等领域具有广泛的应用价值。语音转换的研究涉及声学、语音学、信号处理、模式识别和机器学习等多方面的理论知识,因此,项目研究对推动这些领域的理论和技术发展有重要意义。项目围绕非平行语料非联合训练条件下说话人语音转换问题,重点在以下几个方面进行了系统深入的分析与研究:(1)结构化统计声学模型的分析、建模、训练及其优化;(2)源和目标说话人的声学模型匹配与声学特征的对准;(3)说话人韵律特征的选择、提取和转换控制;(4)语音年龄特征的分析与说话人年龄的转换控制。提出的结构化高斯混合模型(SGMM)及其优化模型SGMM-ES、C-SGMM,将声学特征和内在结构特征融合在一个模型中,从而使得利用全局声学结构(AUS)进行模型的匹配成为可能。特别是C-SGMM,采用非平行语料包含的有限公共音节形成约束条件,改进了EM算法的初始化和迭代,进一步提升了模型的精度和语音转换性能。基于C-SGMM的语音转换系统,目标说话人识别率达到了92.25%,平均倒谱失真为0.52,目标倾向性指标ABX为0.82,语音质量MOS评分为3.45。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
低轨卫星通信信道分配策略
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
用于非对称语料的语音转换函数训练算法研究
面向非平行文本的说话人个性特征转换的关键技术及应用研究
非现场说话人认证语音真实性检测关键技术研究
基于听觉感知模型的说话人识别和语音语种识别新方法研究