数据量匮乏条件下基于混合隐高斯随机场回归的语音转换方法研究

基本信息
批准号:61401148
项目类别:青年科学基金项目
资助金额:27.00
负责人:徐宁
学科分类:
依托单位:河海大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:鲍静益,吴迪,汤一彬,刘小峰,朱金秀,盛惠兴,王志卫,胡芳
关键词:
混合高斯随机场隐高斯随机场数据匮乏语音转换
结项摘要

It is a promising perspective that a robot can minic anyone's voices by adaptive training with limited amount of training data in the future. For example, an intelligent robot, who is capable of mimicing the voices of the sons or daughters of the elders, will comfort the elders living without children emotionally so that loneliness will be alleviated and happier life can be expected...This project aims to resolve the problem arisen from the limited amount of training data in the context of voice conversion. First of all, by resorting to the framework of Gaussian random field, we construct our new voice conversion system. Specifically, the reasearch focuses on multiple output method, joint transformation of information and asymmetric training algorithm in order to alleviate the problem of overfitting. Second, the baseline framework of Gaussian random field has been extended to include a hidden layer for the sake of projecting the observed variables into the sub-space that informative features are more easily to be extracted. The problem of curse of dimensionality can then be alleviated using this structure. Third, mistures of Gaussian random field have been proposed to provide more versatilities in modeling the evolution characteristics between adjacent frames. Finally, those algorithms metioned above have been embeded into real-time robotic systems in order to evaulate effectiveness.

在实际环境中,通过捕捉少量的语音数据进行自适应学习,进而能模仿任意人说话的技术具有重要的应用价值。例如使机器人模仿老人子女声音说话并与之交流,对于处于空巢中的老人可以起到情感抚慰的作用,从而增强老人的生活幸福感。. 本项目以语音转换技术为背景,针对经典系统在数据量匮乏条件下性能大幅下降的问题,研究应对措施:提出建立以高斯随机场为理论平台的语音转换框架,通过研究模型的多输出、信息的联合映射以及非对称结构化训练等关键技术,克服“过拟合”问题;提出在基本高斯随机场的基础上,增加一个新的隐层,实现观测变量的非线性投影和降维,从而便于提炼本征参数,克服“维数灾难”问题;提出设计多个高斯随机场的混合结构和方法,用于对特征参数间的渐变关系进行建模,并增加模型输出的多样性。最后,将上述方法用于机器人系统,验证其可行性。

项目摘要

本项目尝试在资源受限的环境下(训练数据量稀少、机器人平台硬件计算性能薄弱),开发高效、精准的语音转换方法,并将其嵌入到机器人系统中,实现空巢老人的智能陪护。.针对机器人硬件平台计算性能差、存储量小的特点,从提高“高效性”和“精准性”两个方面入手研究和设计转换方法:提出了“基于码本统计直方图经验分布近似映射”和“按照权重比例自动分配码书转换法”,用于实现小负荷快速语音转换,提高其“高效性”;提出了“基于高斯过程后滤波的联合映射法”和“具有混合核函数结构的高斯过程形态”,用于提高语音转换“精准性”;提出了“具有隐层结构的高斯过程形态”、“低维空间球形分簇的高斯过程”以及“基于幂函数凹状性的变分高斯过程快速算法”,用来在保证高斯过程精确性的基础上,进一步降低算法复杂度。.理论实验仿真和机器人平台实测结果表明,我们提出的方法不仅效率较高,能在机器人平台上流畅的实时运行,而且转换后的语音音质和说话人个性特征,都比当今主流的语音转换方法更为优异。.同时,鉴于高斯过程优秀的转换效果和颇耗资源的特点,项目结题后拟注重在高斯过程快速算法方面进一步深入挖掘,同时关注提高核函数非线性建模的创新办法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

徐宁的其他基金

批准号:31500220
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:11074228
批准年份:2010
资助金额:38.00
项目类别:面上项目
批准号:60572015
批准年份:2005
资助金额:24.00
项目类别:面上项目
批准号:60977069
批准年份:2009
资助金额:10.00
项目类别:面上项目
批准号:30801035
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:71872103
批准年份:2018
资助金额:48.00
项目类别:面上项目
批准号:11734014
批准年份:2017
资助金额:330.00
项目类别:重点项目
批准号:41576159
批准年份:2015
资助金额:68.00
项目类别:面上项目
批准号:11404278
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:91027001
批准年份:2010
资助金额:60.00
项目类别:重大研究计划
批准号:31500044
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:71701101
批准年份:2017
资助金额:17.00
项目类别:青年科学基金项目
批准号:51408122
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:71302089
批准年份:2013
资助金额:20.00
项目类别:青年科学基金项目
批准号:40776078
批准年份:2007
资助金额:35.00
项目类别:面上项目
批准号:11574278
批准年份:2015
资助金额:66.00
项目类别:面上项目

相似国自然基金

1

自回归维纳滤波语音增强方法研究

批准号:61471014
批准年份:2014
负责人:鲍长春
学科分类:F0117
资助金额:80.00
项目类别:面上项目
2

基于分段条件随机场的连续语音识别技术

批准号:61175017
批准年份:2011
负责人:屈丹
学科分类:F0605
资助金额:58.00
项目类别:面上项目
3

文本无关的语音转换方法研究

批准号:60873160
批准年份:2008
负责人:陶建华
学科分类:F0605
资助金额:30.00
项目类别:面上项目
4

混合语音的盲分离方法研究

批准号:60172073
批准年份:2001
负责人:殷福亮
学科分类:F0111
资助金额:3.00
项目类别:面上项目