Speech is the most convenient man-machine interface. In reality, the speech is often polluted by the noise. Speech recognition in the noisy environment is still not well solved. Robust speech recognition that solves this problem is a hot topic. Mongolian is an important ethnic minority language, Mongolian speech recognition in the noise environment is still at a blank stage. This project will explore the whole process of the robust speech recognition and focus on the issues of speech de-noising, feature enhancement, classifier enhancement, decoding optimization and joint optimization, which play key roles in improving the anti-noise performance of the whole Mongolian robust speech recognition system. In this studies, we plan to combine the front-end and back-end robust speech recognition schemes with the latest research results in these fields, to combine artificial knowledge with training data to overcome the difficulties of Mongolian which is resource scarcity, to improve learning efficiency, and to improve the recognition accuracy of the robust Mongolian speech recognition. Mongolian information processing is the characteristics and advantages of our team. The promotion of this project is not only to the improvement of our superiority disciplines but also can expand the scope of Mongolian speech application, improve the user experience and will contribute to the economic and cultural development of ethnic minority areas.
语音是最便捷的人机接口,现实情况下,语音往往被噪声干扰,噪声环境下的语音识别仍然没有得到很好的解决,解决该问题的鲁棒性语音识别是一个研究热点。蒙古语是一种重要的少数民族语言,噪声环境下的蒙古语语音识别的研究还处于空白阶段。本项目将完整探索鲁棒性语音识别的全部过程,重点探索对于提升系统抗噪性能具有关键作用的语音去噪、特征增强、识别器强化、解码优化和联合优化的问题,在本项目中,计划结合各领域的最新研究成果,采用前端与后端相结合的鲁棒性语音识别方案,以深度学习为框架,将人工知识与数据相结合,克服蒙古语资源稀缺、训练数据不足的困难,进而提高学习效率,提升噪声环境下的蒙古语语音识别率。蒙古文信息处理是研究团队的特色和优势研究方向,本项目的推进对强化优势学科具有重要意义,更可以扩大蒙古语智能语音应用的适用范围,提高用户体验,将为推动少数民族地区的经济文化发展做出贡献。
语音是最便捷的人机接口,现实情况下,语音往往被噪声干扰,噪声环境下的语音识别仍然没有得到很好的解决,解决该问题的鲁棒性语音识别是一个研究热点。蒙古语是一种重要的少数民族语言,噪声环境下的蒙古语语音识别的研究还处于空白阶段。本项目完整探索鲁棒性语音识别的全部过程,以提升噪声环境下的蒙古语语音识别的准确率为具体目标。在研究中将噪声环境下的语音识别处理过程分成音频预处理前端和语音识别后端两个部分。在语音处理的前端部分,分析发现由于待识别的目标语音存在较多的长时间静音段,将其直接送入语音识别器,识别效率较低。进一步将前端处理任务分解为区分噪声与人声的语音活动检测和进一步将语音部分去噪净化的语音分离两个部分。在语音识别后端部分,在成型的基于深度学习的语音识别系统的基础上,探索将蒙古语语言信息在数据预处理中体现出来的方法,融合多知识来源的迁移学习增强了蒙古语语音识别器的性能。分别探索了这些任务的数据、模型、训练目标及其联合优化等方面,提出了多种方法提高了噪声环境下的鲁棒性蒙古语语音识别系统的识别准确率。课题组采集并使用提出的数据生成方法生成了蒙古语语音语料800小时,收集并清洗了近5GB蒙古文标准编码文本语料库。课题组将采集的部分蒙古语语音数据整理,发布了Mn-ASR数据库,它是目前最大的可被公开访问的蒙古语语音数据库。课题组在国内外学术期刊和学术会议发表论文11篇,协作培养研究生10人。本项目取得的这些成果对相关语种的鲁棒性语音识别研究提供了理论参考和依据,对于蒙古文智能信息化工作具有重要意义,并对维护国家安全及边疆少数民族地区的稳定,繁荣和发展少数民族文化具有重要推动作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
中国参与全球价值链的环境效应分析
Telocytes引导黑素母细胞长途定向迁移的结构基础和分子信号机理研究 – 基于乌骨鸡胚胎皮肤模式
基于深度神经网络的噪声鲁棒性语音识别方法研究
噪声环境下基于多域信息融合的说话人识别鲁棒性研究
基于语音增强的鲁棒性语音识别方法研究
基于压缩感知的鲁棒性语音情感识别研究