基于端到端的多语言语音内容与语言种类联合识别技术的研究

基本信息
批准号:61901466
项目类别:青年科学基金项目
资助金额:25.00
负责人:徐及
学科分类:
依托单位:中国科学院声学研究所
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
语音识别多语言语种识别端到端
结项摘要

In the framework of traditional speech recognition, language recognition and speech recognition are usually regarded as two independent modules, which are cascaded to accomplish the speech recognition task of unknown languages. There are two main problems in cascade approach. One is that each module is optimized separately without comprehensive consideration, which can easily lead to error accumulation. The other is that two modules process speech sequentially, which will result in higher system delay. This project aims at design an end-to-end based joint analysis system of multi-lingual speech recognition and language identification. The joint analysis system can make use of the internal correlation between multi-lingual speech content and language category, so as to achieve synchronous recognition of language category and speech content for speech of unknown language. The joint analysis system optimizes the two tasks synthetically and integrates information at multiple levels to provide better recognition effect and reduce system delay. The main research of this project is focused on the following respects: (1) balanced fusion strategy of multi-lingual acoustic modeling units; (2) joint modeling of multi-lingual speech recognition and language identification; (3) error correction of modeling unit sequence.

传统语音识别框架下,语言种类识别和语音内容识别通常被当作两个独立的模块,二者以级联的形式共同完成语言种类未知的语音识别任务。级联方法存在两方面问题,一是各模块单独优化缺乏综合考虑,容易形成最终结果的错误累积;二是两个模块依次对语音进行处理,会造成较高的系统延迟。本项目将尝试利用多语言语音内容与语言种类信息的内部关联性,设计基于端到端方法的多语言语音内容与语言种类联合识别框架,实现针对未知语言音频的语言种类和语音内容同步识别。联合识别框架对两个任务进行综合优化,多个层面进行信息的交叉融合,从而提供更好的识别效果并降低系统延迟。本项目的具体研究内容包括:(1)多语言建模单元的平衡融合策略;(2)多语言语音内容信息与语言种类信息交叉建模;(3)建模单元生成文本序列的错误修正。

项目摘要

传统语音识别框架下,语言种类识别和语音内容识别通常被当作两个独立的模块,二者以级联的形式共同完成未知种类语言的语音识别任务。本项目利用多语言语音内容与语言种类信息的内部关联性,成功构建了一套基于端到端的多语言语音内容与语言种类联合识别框架,能够在完成多种语言语音内容识别的同时实现相应语音的语言种类识别。在多语言语音识别公开数据集IARPA BABEL上的实验结果表明,所构建联合识别系统语言种类识别正确率达到 99.3%,多语言语音内容识别错误率相对级联式系统下降 11.2%。本项目在执行期内按照预定计划完成所有研究内容,包括多语言建模单元融合方法、基于语言种类信息与时序特征融合的注意力机制建模方法和语言种类信息辅助的文本序列有监督生成方法。项目成果包括性能指标、论文发表和研究生培养几个方面,已全部达到预期要求。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

徐及的其他基金

相似国自然基金

1

基于端到端深度学习框架的文本无关副语言语音属性识别研究

批准号:61773413
批准年份:2017
负责人:李明
学科分类:F0605
资助金额:60.00
项目类别:面上项目
2

联合视觉与自然语言的端到端行人再辨识研究

批准号:61866004
批准年份:2018
负责人:张灿龙
学科分类:F0604
资助金额:40.00
项目类别:地区科学基金项目
3

基于端到端统一建模的图像内容问答算法研究

批准号:61702143
批准年份:2017
负责人:余宙
学科分类:F0210
资助金额:28.00
项目类别:青年科学基金项目
4

多语言混合语音识别关键技术研究

批准号:60475014
批准年份:2004
负责人:张树武
学科分类:F0605
资助金额:23.00
项目类别:面上项目