面向非平行文本的说话人个性特征转换的关键技术及应用研究

基本信息
批准号:61401227
项目类别:青年科学基金项目
资助金额:24.00
负责人:李燕萍
学科分类:
依托单位:南京邮电大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:张玲华,邵曦,万新旺,葛军,周婷婷,林乐,陶定元,陶凯云,汪慧敏
关键词:
个性特征转换语音合成语音转换
结项摘要

Voice conversion is a key technology to achieve high degree of natural personalized voice interaction, but it was suppressed by the bottle-neck issue of requirement for parallel training data. The proposal aims to explore key technologies at the forefront of non-parallel personal characteristic conversion. For the prosody characteristic,we focus on multi-time scale feature extraction and parametric representation of prosody. To address this issue, we develop and apply a hierarchical probabilistic statistical model to capture prosodic information taking place at different time scales for fusion and conversion, which effectively narrows the gap between bottom signal feature extraction and upper speech intelligibility and naturalness. For the spectral characteristic, phonetic theory and linguistic information are introduced into the analysis and construction of spectral conversion model from top to bottom, we adopt topological method to change conversion model from Euclidean space to a topological space. Further, to deal with the situation of unable to acquire source speaker’s data during training stage, we propose a novel framework of voice conversion, based on characteristic modification. The intellectual merit is that the project combines top-down with bottom-up strategy for the first time, speech signal analysis and processing is under the guidance of which for practical application of high quality voice conversion. The study could be transformative because it will certainly provide a new theoretical basis and technical support.

语音转换是实现高自然度个性化语音交互的核心技术,平行训练文本的瓶颈严重限制了该技术的广泛应用,本课题针对非平行文本条件下的说话人个性特征转换的关键问题和应用进行研究。在语音信号的韵律特性方面,注重多时间尺度韵律特征的提取与参数化表示,发展层次结构式概率统计模型对其进行融合与转换,自下而上地衔接底层信号特征提取和上层语音清晰度与自然度之间的断层。在频谱特性方面,自上而下地将语音学理论和语言学信息引入到频谱特征转换模型的分析和构建中,采用拓扑方法实现转换模型从欧氏空间向拓扑空间的转变;对于无法预先采集源说话人训练文本的实际情形提出“润色”修正的思想,实现任意源说话人直接向特定目标说话人的转换。本课题首次将自上而下和自下而上的方法论相结合,指导语音信号不同特性的分析与处理,以实现非平行文本条件下的高质量的说话人个性特征转换,为语音转换技术走向实际应用提供新的理论依据和技术支撑。

项目摘要

语音转换是实现高自然度个性化语音交互的关键技术之一,具有重要的科学研究意义和广阔的市场应用前景。目前的研究主要面临两大挑战,一方面转换语音的音质与个性相似性两个维度的性能很难同时满足,另一方面需要突破对平行训练文本的依赖。本课题以实现非平行文本情形下的高质量语音转换为目标,结合声学、语言学、语音信号处理、人工智能与模式识别和计算机人机交互等多学科领域的最新研究成果,针对这两大难点问题开展了探索性研究,取得了一定的研究成果。首先在对语音信号的频谱特征进行深入分析和研究的基础上,自下而上地衔接底层语音信号特征提取和上层语音清晰度与自然度之间的断层,既要保持重构语音的听觉质量,又要兼顾转换后的目标说话人个性特征是否准确。我们提出了基于改进的GMM和频谱弯折的高质量语音转换算法,通过改进聚类得到音素的合理划分,避免传统高斯聚类的过平滑与欠拟合问题,结合双线性频谱弯折实现高性能的转换,改善语音音质的同时增强说话人个性相似性。其次自上而下地将语音学理论和语言学信息引入到频谱特征转换模型的分析和构建中,提出“润色”修正的思想,突破传统算法中需要为每一对源-目标说话人训练一个转换函数的限制,构建了非平行文本情形下基于Bottleneck特征和变分自编码器(Variational Auto-Encoder, VAE)的多说话人到多说话人的转换模型。基本思想是针对VAE 模型中的解码训练阶段,隐层特征的说话人标签未得到充分利用的问题,用DNN网络对语音特征参数进行训练得到的Bottleneck特征作为VAE模型解码训练的说话人标签,再利用VAE模型进行语音转换训练,该算法充分利用了VAE模型中的标签特性,不仅提高了语音转换效果,而且解决了语音转换中的M2M问题。进一步提出了一种对Bottleneck特征提取网络DNN的训练过程进行干预的方法,在目标说话人训练数据不充分的情况下,丰富了目标说话人个性特征空间,将M2M问题从闭集拓展为开集,从而解决了任意源说话人向任意目标说话人的转换问题。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

上转换纳米材料在光动力疗法中的研究进展

上转换纳米材料在光动力疗法中的研究进展

DOI:
发表时间:2017
2

胶东西北部北截岩体岩石成因: 锆石U-Pb年龄、岩石地球化学与Sr-Nd-Pb同位素制约

胶东西北部北截岩体岩石成因: 锆石U-Pb年龄、岩石地球化学与Sr-Nd-Pb同位素制约

DOI:10.18654/1000-0569/2020.05.10
发表时间:2020
3

含碰撞的平面摩擦系统半解析半数值算法研究

含碰撞的平面摩擦系统半解析半数值算法研究

DOI:
发表时间:2016
4

杂臂星形共聚物研究的近期新进展

杂臂星形共聚物研究的近期新进展

DOI:10.14028/j.cnki.1003-3726.2019.10.014
发表时间:2019
5

微生物合成黄酮类化合物研究进展

微生物合成黄酮类化合物研究进展

DOI:10.13376/j.cbls/2022026
发表时间:2022

相似国自然基金

1

基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

批准号:61271360
批准年份:2012
负责人:俞一彪
学科分类:F0111
资助金额:65.00
项目类别:面上项目
2

面向非特定说话人的实用情感语音特征分析与识别的关键技术及应用研究

批准号:61273266
批准年份:2012
负责人:赵力
学科分类:F0605
资助金额:81.00
项目类别:面上项目
3

非现场说话人认证语音真实性检测关键技术研究

批准号:61571192
批准年份:2015
负责人:贺前华
学科分类:F0117
资助金额:68.00
项目类别:面上项目
4

面向聊天机器人的文本情感分析关键技术研究

批准号:61772153
批准年份:2017
负责人:赵妍妍
学科分类:F0211
资助金额:60.00
项目类别:面上项目