相对自然语音,合成语音的缺陷主要在于表现力较弱。受音库限制,合成语音的底层参数变化模式较少,整体情感和风格较平淡,口语特性和个性特征也不强。基于以上存在的问题,本项目拟从底层参数变异性、情感、风格和个性的差异来区分合成语音和自然语音。首先,通过对语义规整,以声学、基频参数的高阶统计量来计算底层参数变异性;其次,通过对韵律特征建模来展示语音中情感和风格的多样性;再次,通过语义信息和非语义信息并行的方式来识别发音习惯,以发音习惯来体现个性差异。在这些算法的基础上,通过多层面的信息融合最终实现区分合成语音和自然语音的原型系统。. 在采用语音合成技术进行信息隐藏和信息欺骗已经成为现实的情况下,有效地区分合成语音和自然语音,对自动声纹识别的应用有非常重要的工程价值;同时本项目的研究对于推动声纹识别技术的进一步发展也具有一定的理论意义。
本项目针对如何在声纹识别中区分合成语音展开研究,从而提高声纹识别的鲁棒性。从2009年9月承担本项目以来,针对目前主流的基于隐马尔可夫模型的语音合成系统,从韵律和底层声学参数两方面着手研究合成语音的区分,首先从整段语音的韵律和声学参数的统计特性上来区分合成语音,进一步在语音识别的基础上,提出了在发音习惯上的发音差异性的方法来区分合成语音;在此基础上,完成了合成语音区分的原型演示系统。.在基金项目支持下,研究组发表相关论文15篇,其中EI检索11篇,培养学生5名。参加了ICASSP 2010,ISCSLP 2010,ISCSLP 2012国际学术会议,另外参加了NIST 2010年和2012年的说话人识别比赛,取得了优异的比赛成绩。邀请了微软研究院邓力、霍强和俞栋等高水平学者访问了中国科技大学语音实验室。采用声纹识别技术,协助总参某所在西南边疆破获重大案件。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
基于语音增强的鲁棒性语音识别方法研究
基于压缩感知的鲁棒性语音情感识别研究
基于参数丢失理论的语音识别方法鲁棒性研究
噪声环境下鲁棒性蒙古语语音识别技术研究