China involves multiple nations, and each nation has its unique language. The research on cross-lingual and multi-lingual phenomenon is highly important for national amalgamation, cultural harmonics and social stability. This research focuses on automatic speech recognition (ASR) for minority languages, particularly the techniques for multi- and minor- lingual ASR. The goal is to establish a unified framework for model training and decoding, which can not only support minority languages with relatively rich resources (e.g., Uyghur and Mongolia), but can also be migrated to other low-resource languages. At the same time, this project will establish and open a series of data, tools and standards. We hope it can motivate the research on ASR and related fields including information retrieval and natural language understanding.
中国是一个多民族国家,每个民族都有自己独特的语言。研究多民族背景下的多语言和跨语言现象,对促进语言互通互融、建设文化和谐、维护民族稳定具有重要意义。本研究关注少数民族语音识别技术,特别是多少数民族语言的语音识别技术,实现一个可适用于多少数民族语言的统一建模方法和识别系统,该方法和系统既可以支持资源相对丰富的少数民族语言(如维吾尔语,蒙古语),也可快速移植到其它资源稀缺的少数民族语言。同时,本项目还将建设公开一系列数据资源、测试标准、标注平台和处理工具,推动多少数民族语言语音识别和相关领域(如信息抽取、自然语言理解等)的研究进程。
中国是一个多民族国家,每个民族都有自己独特的语言。研究多民族背景下的多语言和跨语言现象,对促进语言互通互融、建设文化和谐、维护民族稳定具有重要意义。本项目研究关注多少数民族语言的语音语言信息处理技术,涉及研究任务覆盖了多少数民族语言的语音识别、语种识别、说话人识别、语音合成、机器翻译等;代表性研究工作包括面向数据稀缺问题的语音信息深度分解与重构、面向零/低资源条件的无/半监督迁移学习、面向领域知识长尾问题的符号化神经模型建模与推理等。基于这些研究工作,实现了可适用于多少数民族语言的语音语言信息处理的方法和系统。本项目面向少数民族语言的语音和语言资源建设,公开一系列数据资源、测试标准、标注平台和处理工具,推动了多少数民族语言的语音语言信息处理和相关领域(如信息抽取、自然语言理解等)的研究发展。本项目不仅从科学研究的角度探索了多少数民族语音语言信息处理中的关键问题,还实现了科学研究的成果转化。基于本项目研究成果的动态密码语音认证技术,现已支持汉语、维语、蒙语、藏语等多个语种,在公共服务、金融支付等领域有着广泛应用,为国家信息安全、社会民生提供了重要保障。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于认知半监督持续学习的连续语音识别方法研究
基于电话语音的少数民族语言识别研究
濒危少数民族语言语音声学数据库及声学分析
基于语音增强的鲁棒性语音识别方法研究