无监督语音层次结构联合建模及其应用

基本信息

批准号：61571363

项目类别：面上项目

资助金额：60.00

负责人：谢磊

学科分类：

依托单位：西北工业大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：付中华,卢选民,魏巍,李海森,于佳,孙思宁,吕航,袁有根,陈红洁

关键词：

语音建模声学模型语音分析

结项摘要

Modern speech recognition and synthesis systems are built upon the hierarchical linguistic structure of speech using supervised machine learning technologies, which heavily relies on large, lexically transcribed corpus and expert knowledge about linguistic structure of the specific language. This project aims to use unsupervised means to discover the linguistic structure, i.e., phoneme-like and word-like units, in speech without the use of expert-provided linguistic knowledge and human-transcribed data. First, previous studies approach different level of speech units sequentially and independently in which one hierarchical level is supposed not related to other ones. Besides, model selection heavily relies on the size of the data and involves much human effort. To tackle these problems, we propose to model speech linguistic structure as well as the unknown set of acoustic units in different level as latent variables in one nonparametric Bayesian model. Our model represents the hierarchical linguistic structure in a systematic way that best models the observed speech data through an iterative inference process. Second, we propose to use deep neural networks and the automatically discovered lexical units in the extraction of speech features with important time-sequential information and discriminative properties. Third, based on the automatically induced linguistic structure of speech, we develop zero-resource speech processing applications, including spoken term detection and spoken document understanding.

当前的语音识别与合成系统是建立在音素、词等语音层级结构之上的有监督机器学习过程，需要大量语音学专家知识以及充分的标注训练数据。本项目旨在采用无监督的方法自动学习得到语音中的音素、词等语音结构单元，解决语音处理技术中过度依赖人工标注和专家知识的问题。首先，当前研究将不同语音结构单元单独建模、割裂研究，建模方法和数据高度相关,模型选择需要大量的人工干预。针对这些问题，以非参贝叶斯模型作为建模手段，研究语音层次结构联合建模方法,同时解决模型选择问题。其次，针对语音特征提取中未能充分考虑时序和语音单元可变长的特点，利用神经网络强大的特征学习能力,以语音层级结构为“弱监督”指导信息,得到既嵌入语音重要时序信息又具有区分性的语音特征。最后，利用自动学习到的语音层级结构，实现无标注抄本、无任何语言专家知识的零资源(Zero-resource)条件下的语音处理，包括语音关键词检测、语音文档的语义分析等。

项目摘要

本项目旨在解决当前语音处理技术过度依赖人工标注和专家知识的问题，采用无监督和深度学习方法自动学习语音中层级结构信息，并探索其在语音关键词检出和语音识别上的应用。在无监督与低资源语音特征表示学习方面，提出了基于词对深度学习和基于荻利克雷过程混合高斯模型（DP-GMM）的语音特征表示方法。针对过度依赖人工标注的问题，采用DP-GMM模型和基于词对的深度学习方法，无监督或弱监督地从语音中自动学习有效的语音特征表示，自动挖掘出语音中的结构信息，在语音发音分类、关键词检出等任务上进行验证，取得了良好的效果。在语音建模方面，提出了基于深度对抗学习的语音鲁棒建模方法，包括基于域对抗学习的鲁棒特征表示、基于对抗样本的语音数据扩充、基于对抗正则化和对抗dropout的声学模型训练方法。利用深度对抗学习的鲁棒特征表示和建模能力，明显提升了抗噪语音识别、关键词检出、说话人识别的性能。同时，本项目将基于特征学习和建模的成果应用于实际复杂场景的鲁棒语音识别和关键词检出等任务中，考虑实际应用场景中的挑战性问题（如中英混杂、复杂场景噪声、口音问题），有效提升了语音识别和关键词检出的鲁棒性。综上，本项目从新的角度解决目前制约语音建模关键技术和难点问题，为鲁棒语音识别与智能语音交互等实际落地提供了重要的应用基础理论和完备的实验验证。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

谢磊的其他基金

批准号：41572045

批准年份：2015

资助金额：70.00

项目类别：面上项目

批准号：60904039

批准年份：2009

资助金额：20.00

项目类别：青年科学基金项目

批准号：41172061

批准年份：2011

资助金额：73.00

项目类别：面上项目

批准号：60802085

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

批准号：61175018

批准年份：2011

资助金额：59.00

项目类别：面上项目

批准号：61100196

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：31170201

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：11275095

批准年份：2012

资助金额：88.00

项目类别：面上项目

批准号：51105299

批准年份：2011

资助金额：26.00

项目类别：青年科学基金项目

批准号：51479158

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：61671410

批准年份：2016

资助金额：58.00

项目类别：面上项目

批准号：61071129

批准年份：2010

资助金额：32.00

项目类别：面上项目

批准号：61472185

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：31670207

批准年份：2016

资助金额：62.00

项目类别：面上项目

批准号：71202070

批准年份：2012

资助金额：17.50

项目类别：青年科学基金项目

批准号：40902017

批准年份：2009

资助金额：20.00

项目类别：青年科学基金项目

批准号：61374121

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：11904342

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：11702040

批准年份：2017

资助金额：27.00

项目类别：青年科学基金项目

批准号：61872174

批准年份：2018

资助金额：64.00

项目类别：面上项目

批准号：81603485

批准年份：2016

资助金额：17.00

项目类别：青年科学基金项目

相似国自然基金

无监督层次表征学习模型及其在遥感影像解译中的应用

批准号：61871310

批准年份：2018

负责人：刘芳

学科分类：F0113

资助金额：16.00

项目类别：面上项目

无监督分词及词性归纳联合方法研究

批准号：61303105

批准年份：2013

负责人：王函石

学科分类：F0211

资助金额：25.00

项目类别：青年科学基金项目

融合语音产生机理与统计声学建模的层次化语音合成方法研究

批准号：61273032

批准年份：2012

负责人：凌震华

学科分类：F0605

资助金额：80.00

项目类别：面上项目

基于结构建模的语音理解及应用研究

批准号：61300197

批准年份：2013

负责人：张剑

学科分类：F0206

资助金额：20.00

项目类别：青年科学基金项目

无监督语音层次结构联合建模及其应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

谢磊的其他基金

湖南香花岭地区厚层状云英岩的成因及其钨锡稀有金属成矿意义

双层结构预测控制系统性能评估与诊断研究

南岭地区高演化长英质岩脉的成岩机理及其在花岗岩成矿系统中的意义

中文新闻广播故事自动分割技术研究

基于DBN协同建模的中文及跨语种语音结构事件检测研究

基于跨层优化的RFID数据管理理论与关键技术研究

毛茛科铁线莲属(Clematis L.)分子系统学与生物地理学研究

肟基冠醚衍生物功能化碳纳米管及其选择性分离铀酰离子机制

超高深宽比微结构零件聚合反应注射成型技术及其演变过程原位研究

近海风电场环境下的海事雷达探测性能受限机理及数据修复方法研究

一致性分布式推理中的错误数据注入攻击与防御方法研究

基于网络编码的异构无线网络的资源管理技术研究

面向真实复杂环境的RFID识别与感知技术研究

铁线莲属灌木铁线莲组的演化历史与谱系地理学研究

基于多个不同类型消费者的零售商产品组合和库存策略研究

南岭地区含锡花岗岩中矿物的聚锡能力与成矿示踪效应研究

双层结构预测控制系统全流程协调与经济性能优化研究

陆架斜坡海域内孤立波引起的声场起伏及基阵处理增益研究

基于强剪切稀化黏塑性基液的磁流变液悬浮机理研究

基于RFID阵列的可标记无源感知机制研究

重组BDNF与电针对神经病理痛的镇痛机制比较研究

相似国自然基金