噪声环境下鲁棒性蒙古语语音识别技术研究

基本信息
批准号:61866030
项目类别:地区科学基金项目
资助金额:37.00
负责人:张晖
学科分类:
依托单位:内蒙古大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:仁图雅,斯琴,苏向东,路敏,刘瑞,王勇和,毛振苏,王思蒙,李光鹏
关键词:
鲁棒性语音识别深度学习蒙古语语言模型联合优化
结项摘要

Speech is the most convenient man-machine interface. In reality, the speech is often polluted by the noise. Speech recognition in the noisy environment is still not well solved. Robust speech recognition that solves this problem is a hot topic. Mongolian is an important ethnic minority language, Mongolian speech recognition in the noise environment is still at a blank stage. This project will explore the whole process of the robust speech recognition and focus on the issues of speech de-noising, feature enhancement, classifier enhancement, decoding optimization and joint optimization, which play key roles in improving the anti-noise performance of the whole Mongolian robust speech recognition system. In this studies, we plan to combine the front-end and back-end robust speech recognition schemes with the latest research results in these fields, to combine artificial knowledge with training data to overcome the difficulties of Mongolian which is resource scarcity, to improve learning efficiency, and to improve the recognition accuracy of the robust Mongolian speech recognition. Mongolian information processing is the characteristics and advantages of our team. The promotion of this project is not only to the improvement of our superiority disciplines but also can expand the scope of Mongolian speech application, improve the user experience and will contribute to the economic and cultural development of ethnic minority areas.

语音是最便捷的人机接口,现实情况下,语音往往被噪声干扰,噪声环境下的语音识别仍然没有得到很好的解决,解决该问题的鲁棒性语音识别是一个研究热点。蒙古语是一种重要的少数民族语言,噪声环境下的蒙古语语音识别的研究还处于空白阶段。本项目将完整探索鲁棒性语音识别的全部过程,重点探索对于提升系统抗噪性能具有关键作用的语音去噪、特征增强、识别器强化、解码优化和联合优化的问题,在本项目中,计划结合各领域的最新研究成果,采用前端与后端相结合的鲁棒性语音识别方案,以深度学习为框架,将人工知识与数据相结合,克服蒙古语资源稀缺、训练数据不足的困难,进而提高学习效率,提升噪声环境下的蒙古语语音识别率。蒙古文信息处理是研究团队的特色和优势研究方向,本项目的推进对强化优势学科具有重要意义,更可以扩大蒙古语智能语音应用的适用范围,提高用户体验,将为推动少数民族地区的经济文化发展做出贡献。

项目摘要

语音是最便捷的人机接口,现实情况下,语音往往被噪声干扰,噪声环境下的语音识别仍然没有得到很好的解决,解决该问题的鲁棒性语音识别是一个研究热点。蒙古语是一种重要的少数民族语言,噪声环境下的蒙古语语音识别的研究还处于空白阶段。本项目完整探索鲁棒性语音识别的全部过程,以提升噪声环境下的蒙古语语音识别的准确率为具体目标。在研究中将噪声环境下的语音识别处理过程分成音频预处理前端和语音识别后端两个部分。在语音处理的前端部分,分析发现由于待识别的目标语音存在较多的长时间静音段,将其直接送入语音识别器,识别效率较低。进一步将前端处理任务分解为区分噪声与人声的语音活动检测和进一步将语音部分去噪净化的语音分离两个部分。在语音识别后端部分,在成型的基于深度学习的语音识别系统的基础上,探索将蒙古语语言信息在数据预处理中体现出来的方法,融合多知识来源的迁移学习增强了蒙古语语音识别器的性能。分别探索了这些任务的数据、模型、训练目标及其联合优化等方面,提出了多种方法提高了噪声环境下的鲁棒性蒙古语语音识别系统的识别准确率。课题组采集并使用提出的数据生成方法生成了蒙古语语音语料800小时,收集并清洗了近5GB蒙古文标准编码文本语料库。课题组将采集的部分蒙古语语音数据整理,发布了Mn-ASR数据库,它是目前最大的可被公开访问的蒙古语语音数据库。课题组在国内外学术期刊和学术会议发表论文11篇,协作培养研究生10人。本项目取得的这些成果对相关语种的鲁棒性语音识别研究提供了理论参考和依据,对于蒙古文智能信息化工作具有重要意义,并对维护国家安全及边疆少数民族地区的稳定,繁荣和发展少数民族文化具有重要推动作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

张晖的其他基金

批准号:31100557
批准年份:2011
资助金额:20.00
项目类别:青年科学基金项目
批准号:31560681
批准年份:2015
资助金额:40.00
项目类别:地区科学基金项目
批准号:31671891
批准年份:2016
资助金额:63.00
项目类别:面上项目
批准号:61101105
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:20671044
批准年份:2006
资助金额:26.00
项目类别:面上项目
批准号:71603117
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:31271934
批准年份:2012
资助金额:67.00
项目类别:面上项目
批准号:11502177
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:20977069
批准年份:2009
资助金额:35.00
项目类别:面上项目
批准号:30700839
批准年份:2007
资助金额:18.00
项目类别:青年科学基金项目
批准号:61705203
批准年份:2017
资助金额:23.00
项目类别:青年科学基金项目
批准号:11304396
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:31171637
批准年份:2011
资助金额:62.00
项目类别:面上项目
批准号:31760716
批准年份:2017
资助金额:37.00
项目类别:地区科学基金项目
批准号:61471203
批准年份:2014
资助金额:82.00
项目类别:面上项目
批准号:20107005
批准年份:2001
资助金额:6.00
项目类别:青年科学基金项目
批准号:61179068
批准年份:2011
资助金额:39.00
项目类别:联合基金项目
批准号:81071506
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:61603282
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:61701263
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:U1560105
批准年份:2015
资助金额:60.00
项目类别:联合基金项目
批准号:31872906
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:71863005
批准年份:2018
资助金额:28.00
项目类别:地区科学基金项目

相似国自然基金

1

基于深度神经网络的噪声鲁棒性语音识别方法研究

批准号:61305002
批准年份:2013
负责人:杜俊
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
2

噪声环境下基于多域信息融合的说话人识别鲁棒性研究

批准号:11704229
批准年份:2017
负责人:梁春燕
学科分类:A2305
资助金额:20.00
项目类别:青年科学基金项目
3

基于语音增强的鲁棒性语音识别方法研究

批准号:62001446
批准年份:2020
负责人:屠彦辉
学科分类:F0117
资助金额:16.00
项目类别:青年科学基金项目
4

基于压缩感知的鲁棒性语音情感识别研究

批准号:61203257
批准年份:2012
负责人:张石清
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目