基于音节模型的音频点播关键技术研究

基本信息
批准号:61301218
项目类别:青年科学基金项目
资助金额:23.00
负责人:吕勇
学科分类:
依托单位:河海大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:韦耿,汤一彬,董峦,陶秋雨,印晶晶,胡棚,夏阁,施杰
关键词:
音节模型语音识别环境补偿混响语音处理音频点播
结项摘要

In Chinese, there are a large number of homophones and a small number of syllables, and more than one Chinese character corresponds to the same syllable. Therefore, the audio indexing library is established for every Chinese syllable and the input speech is recognized as a syllable sequence in this project. In the syllable matching procedure, the potential audio tracks are selected from the audio indexing library according to the syllable information of the input speech and then the syllable sequence of the input speech is compared with the syllable sequence of every potential audio track. The traditional text matching is replaced by the syllable sequence matching, which improves the decoding accuracy and reduces the system complexity. For the front-end speech recognition procedure, the nonlinear compensation technology is employed to compensate the additive noise, channel distortion and room reverberation, which can improve the robustness of speech recognition systems. Furthermore, the N-best algorithm is used to produce more than one potential syllable sequence of the input speech, which reduces the impact of the wrong speech recognition results and improves the accuracy of the syllable sequence decoding.

针对汉语同音字多,音节较少, 多个汉字对应一个音节的特点,为每个汉语音节建立音频索引库,将用户发出的口语识别为音节序列。在匹配解码阶段,首先根据输入语音的音节序列信息,从音频索引库的相应音节条目中选取候选音频,再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配,提高了解码精度,降低了系统复杂度。在前端语音识别中,用非线性环境补偿技术对加性噪声、信道失真和室内混响进行补偿,提高语音识别的鲁棒性;并采用N-best算法选取前N个最有可能的语音单元作为输出结果,得到待识别语音的多个可能的音节序列,从而减小前端语音识别错误对后端音节序列匹配解码的影响。

项目摘要

针对汉语同音字多,音节较少,多个汉字对应一个音节的特点,为每个汉语音节建立音频索引库,将用户发出的口语识别为音节序列,用音节匹配代替传统的文本匹配,提高音频点播的精度,减小系统的复杂性。.在实际应用中,背景噪声和信道失真往往是不可避免的,它们会导致特征向量与预先训练的声学模型严重失配,甚至有可能使识别器完全失效。因此,研究语音识别的环境补偿技术,减小环境失配对音频点播系统语音识别模块的影响,具有非常重要的意义。课题组针对传统特征补偿算法难以实时跟踪非平稳噪声的缺点,提出了基于快速噪声估计的环境补偿算法,分别用一个含有较少单元的高斯混合模型和一个含有较多高斯单元的高斯混合模型进行噪声参数估计和纯净语音估计。在模型自适应领域,提出了用于通用模型自适应的中心子带回归算法和用于抗噪声模型自适应的子带VTS算法,并通过多重自适应进一步提高模型自适应的精度。在混响语音识别研究中,将矢量泰勒级数方法用于室内加性噪声和短时混响的联合特征补偿,提高混响环境下的补偿性能。.在音节识别中,采用N-best 算法选取前N个最有可能的语音单元作为输出结果,得到待识别语音的多个可能的音节序列,从而减小前端语音识别错误对后端音节序列匹配解码的影响。在匹配解码阶段,首先根据输入语音的音节序列信息,从音频索引库的相应音节条目中选取候选音频,再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配,提高了解码精度,降低了系统复杂度。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

吕勇的其他基金

相似国自然基金

1

适于MPEG音频播放控制的音频水印关键技术研究

批准号:60873220
批准年份:2008
负责人:王让定
学科分类:F0206
资助金额:33.00
项目类别:面上项目
2

基于内容的音频信息检索关键技术研究

批准号:60672163
批准年份:2006
负责人:韩纪庆
学科分类:F0113
资助金额:28.00
项目类别:联合基金项目
3

基于Web的音频识别与检索关键技术研究

批准号:60673100
批准年份:2006
负责人:周明全
学科分类:F0605
资助金额:25.00
项目类别:面上项目
4

基于语义无损的音频隐藏保密语音的关键技术研究

批准号:60572096
批准年份:2005
负责人:王让定
学科分类:F0113
资助金额:6.00
项目类别:面上项目