In Chinese, there are a large number of homophones and a small number of syllables, and more than one Chinese character corresponds to the same syllable. Therefore, the audio indexing library is established for every Chinese syllable and the input speech is recognized as a syllable sequence in this project. In the syllable matching procedure, the potential audio tracks are selected from the audio indexing library according to the syllable information of the input speech and then the syllable sequence of the input speech is compared with the syllable sequence of every potential audio track. The traditional text matching is replaced by the syllable sequence matching, which improves the decoding accuracy and reduces the system complexity. For the front-end speech recognition procedure, the nonlinear compensation technology is employed to compensate the additive noise, channel distortion and room reverberation, which can improve the robustness of speech recognition systems. Furthermore, the N-best algorithm is used to produce more than one potential syllable sequence of the input speech, which reduces the impact of the wrong speech recognition results and improves the accuracy of the syllable sequence decoding.
针对汉语同音字多,音节较少, 多个汉字对应一个音节的特点,为每个汉语音节建立音频索引库,将用户发出的口语识别为音节序列。在匹配解码阶段,首先根据输入语音的音节序列信息,从音频索引库的相应音节条目中选取候选音频,再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配,提高了解码精度,降低了系统复杂度。在前端语音识别中,用非线性环境补偿技术对加性噪声、信道失真和室内混响进行补偿,提高语音识别的鲁棒性;并采用N-best算法选取前N个最有可能的语音单元作为输出结果,得到待识别语音的多个可能的音节序列,从而减小前端语音识别错误对后端音节序列匹配解码的影响。
针对汉语同音字多,音节较少,多个汉字对应一个音节的特点,为每个汉语音节建立音频索引库,将用户发出的口语识别为音节序列,用音节匹配代替传统的文本匹配,提高音频点播的精度,减小系统的复杂性。.在实际应用中,背景噪声和信道失真往往是不可避免的,它们会导致特征向量与预先训练的声学模型严重失配,甚至有可能使识别器完全失效。因此,研究语音识别的环境补偿技术,减小环境失配对音频点播系统语音识别模块的影响,具有非常重要的意义。课题组针对传统特征补偿算法难以实时跟踪非平稳噪声的缺点,提出了基于快速噪声估计的环境补偿算法,分别用一个含有较少单元的高斯混合模型和一个含有较多高斯单元的高斯混合模型进行噪声参数估计和纯净语音估计。在模型自适应领域,提出了用于通用模型自适应的中心子带回归算法和用于抗噪声模型自适应的子带VTS算法,并通过多重自适应进一步提高模型自适应的精度。在混响语音识别研究中,将矢量泰勒级数方法用于室内加性噪声和短时混响的联合特征补偿,提高混响环境下的补偿性能。.在音节识别中,采用N-best 算法选取前N个最有可能的语音单元作为输出结果,得到待识别语音的多个可能的音节序列,从而减小前端语音识别错误对后端音节序列匹配解码的影响。在匹配解码阶段,首先根据输入语音的音节序列信息,从音频索引库的相应音节条目中选取候选音频,再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配,提高了解码精度,降低了系统复杂度。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
适于MPEG音频播放控制的音频水印关键技术研究
基于内容的音频信息检索关键技术研究
基于Web的音频识别与检索关键技术研究
基于语义无损的音频隐藏保密语音的关键技术研究