基于音节模型的音频点播关键技术研究

基本信息

批准号：61301218

项目类别：青年科学基金项目

资助金额：23.00

负责人：吕勇

学科分类：

依托单位：河海大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：韦耿,汤一彬,董峦,陶秋雨,印晶晶,胡棚,夏阁,施杰

关键词：

音节模型语音识别环境补偿混响语音处理音频点播

结项摘要

In Chinese, there are a large number of homophones and a small number of syllables, and more than one Chinese character corresponds to the same syllable. Therefore, the audio indexing library is established for every Chinese syllable and the input speech is recognized as a syllable sequence in this project. In the syllable matching procedure, the potential audio tracks are selected from the audio indexing library according to the syllable information of the input speech and then the syllable sequence of the input speech is compared with the syllable sequence of every potential audio track. The traditional text matching is replaced by the syllable sequence matching, which improves the decoding accuracy and reduces the system complexity. For the front-end speech recognition procedure, the nonlinear compensation technology is employed to compensate the additive noise, channel distortion and room reverberation, which can improve the robustness of speech recognition systems. Furthermore, the N-best algorithm is used to produce more than one potential syllable sequence of the input speech, which reduces the impact of the wrong speech recognition results and improves the accuracy of the syllable sequence decoding.

针对汉语同音字多，音节较少, 多个汉字对应一个音节的特点，为每个汉语音节建立音频索引库，将用户发出的口语识别为音节序列。在匹配解码阶段，首先根据输入语音的音节序列信息，从音频索引库的相应音节条目中选取候选音频，再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配，提高了解码精度，降低了系统复杂度。在前端语音识别中，用非线性环境补偿技术对加性噪声、信道失真和室内混响进行补偿，提高语音识别的鲁棒性；并采用N-best算法选取前N个最有可能的语音单元作为输出结果，得到待识别语音的多个可能的音节序列，从而减小前端语音识别错误对后端音节序列匹配解码的影响。

项目摘要

针对汉语同音字多，音节较少，多个汉字对应一个音节的特点，为每个汉语音节建立音频索引库，将用户发出的口语识别为音节序列，用音节匹配代替传统的文本匹配，提高音频点播的精度，减小系统的复杂性。.在实际应用中，背景噪声和信道失真往往是不可避免的，它们会导致特征向量与预先训练的声学模型严重失配，甚至有可能使识别器完全失效。因此，研究语音识别的环境补偿技术，减小环境失配对音频点播系统语音识别模块的影响，具有非常重要的意义。课题组针对传统特征补偿算法难以实时跟踪非平稳噪声的缺点，提出了基于快速噪声估计的环境补偿算法，分别用一个含有较少单元的高斯混合模型和一个含有较多高斯单元的高斯混合模型进行噪声参数估计和纯净语音估计。在模型自适应领域，提出了用于通用模型自适应的中心子带回归算法和用于抗噪声模型自适应的子带VTS算法，并通过多重自适应进一步提高模型自适应的精度。在混响语音识别研究中，将矢量泰勒级数方法用于室内加性噪声和短时混响的联合特征补偿，提高混响环境下的补偿性能。.在音节识别中，采用N-best 算法选取前N个最有可能的语音单元作为输出结果，得到待识别语音的多个可能的音节序列，从而减小前端语音识别错误对后端音节序列匹配解码的影响。在匹配解码阶段，首先根据输入语音的音节序列信息，从音频索引库的相应音节条目中选取候选音频，再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配，提高了解码精度，降低了系统复杂度。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：

发表时间：2019

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

吕勇的其他基金

批准号：51475339

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：50705069

批准年份：2007

资助金额：18.00

项目类别：青年科学基金项目

批准号：51875416

批准年份：2018

资助金额：60.00

项目类别：面上项目

相似国自然基金

适于MPEG音频播放控制的音频水印关键技术研究

批准号：60873220

批准年份：2008

负责人：王让定

学科分类：F0206

资助金额：33.00

项目类别：面上项目

基于内容的音频信息检索关键技术研究

批准号：60672163

批准年份：2006

负责人：韩纪庆

学科分类：F0113

资助金额：28.00

项目类别：联合基金项目

基于Web的音频识别与检索关键技术研究

批准号：60673100

批准年份：2006

负责人：周明全

学科分类：F0605

资助金额：25.00

项目类别：面上项目

基于语义无损的音频隐藏保密语音的关键技术研究

批准号：60572096

批准年份：2005

负责人：王让定

学科分类：F0113

资助金额：6.00

项目类别：面上项目

基于音节模型的音频点播关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于旋量理论的数控机床几何误差分离与补偿方法研究

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

吕勇的其他基金

高维经验模式分解理论及其在设备早期故障诊断中的应用研究

基于加权相空间重构的早期故障特征提取理论研究

动模式分解理论及其在设备早期故障诊断中的应用研究

相似国自然基金