Deep neural network based acoustic models have obtained significant improvement for speech recognition systems. However, there are many challenges for low resource speech recognition tasks. Cross-lingual acoustic modeling is proposed to solve this problem. However, previous studies have some limitations. First, few of researchers focus on the problem of “when to transfer”. Second, previous methods exist negative transfer. Third, previous work ignores to explore the generalization error lower bound of cross-lingual transfer learning. In order to solve these problems, this project is going to explore the relevance between the performance of acoustic model and cross-lingual transfer learning via linguistics, phonology, language transfer in second language acquisition, deep learning and statistical learning theory. This project will build the mechanism of “when to transfer” for acoustic transfer models. Then the methods of learning language universal representations will be studied. Furthermore, the generalization error lower bound of cross-lingual transfer learning will be explored. Based on the above research, the cross-lingual acoustic modeling will be developed and the low resource speech recognition system will also be built. This project has profound scientific significance for cross-lingual transfer learning. Moreover, this project will help the artificial intelligence technology to be widely applied in products. This project will also play an important role in cultural exchanges, economic development and national security of the Belt and Road, as well as the protection of endangered languages.
尽管语音识别技术已经成熟,但是小语种语音识别系统的识别准确率仍然难以达到实用要求。跨语言建模技术是解决该问题的一种重要思路,然而,现有研究存在缺乏深入探索“何时迁移”的机制、容易产生负迁移、缺乏分析泛化误差下界等问题。针对这些问题,本项目拟以小语种语音数据为研究对象,融合语言学、音韵学、二语习得理论、深度学习和统计学习理论,深入探索语音感知和跨语言迁移学习的关联。重点构建跨语言语音建模“何时迁移”的机制,进一步研究跨语言声学模型的通用语音表征学习方法,深入探索跨语言迁移学习的泛化误差下界。在上述研究的基础上,实现跨语言的语音迁移模型,并构建小语种语音识别系统。本项目面向小数据的研究将对完善跨语言迁移学习的方法和理论具有重要的科学意义,有助于促进人工智能技术被大规模应用,也能为“一带一路”的文化交流、经济发展和国家安全以及保护濒危语言发挥重要作用。
尽管语音识别技术已经成熟,但是小语种语音识别系统的识别准确率仍然难以达到实用要.求。本项目以小语种语音数据为研究对象,融合语言学、音韵学、二语习得理论、统计学习理论和跨语言迁移学习方法,深入探索了语音感知和跨语言迁移学习的关联,开展了三方面研究工作:(1)跨语言语音建模“何时迁移”的机制;(2)跨语言声学模型的通用语音表征学习方法;(3)跨语言迁移学习的泛化误差下界。该项目与美国佐治亚理工大学、法国CNRS、新加坡国立大学等国外顶级科研机构,以及国内同行进行了学术交流,资助了10余次线上参加国际学术会议的交流机会,主要研究成果包括:(1)合度量学习与对抗训练的语音迁移学习方法;(2)基于跨言知识迁移的通用语音表征方法;(3)结合对比学习与上下文感知的多语言语音生成方法。基于上述研究成果,实现了跨语言的语音迁移模型,并构建了小语种语音识别和合成系统。在本项目支持下发表学术论文40篇,其中:国际期刊7 篇(包括本领域内影响因子最高的国际著名期刊 IEEE Transactions on Audio, Speech and Language Processing 论文 6篇),国内核心期刊1篇,国际会议32篇。这些论文被 SCI 收录7篇, EI 收录30篇。完成中国专利申请 37 项(其中 34 项已授权),国际专利申请9项(其中 6 项已授权),软件著作权2项。培养的学生中, 6人获中科院院级三好学生,1人获优秀共产党员,2人获得国家奖学金,4人获国内重要学术会议最佳学术论文或报告奖。1次获国际语音领域比赛第一名,1次获国内语音领域比赛第一名。上述研究成果对完善跨语言迁移学习的方法和理论具有重要的科学意义,有助于促进人工智能技术被大规模应用,为“一带一路”的文化交流、经济发展和国家安全以及保护濒危语言发挥重要作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
中国参与全球价值链的环境效应分析
基于迁移学习的跨语言情感分类研究
基于深度学习和迁移学习的东盟跨语言查询扩展研究
基于子空间迁移学习的跨语种语音情感识别研究
面向推荐系统中个体小数据建模的迁移学习技术研究