In this project, research on methods of user feed-back learning and recognition result refining for speech transcription systems will be conducted based on current work on error correction in speech recognition and computer-assisted speech transcription. In current systems, the achievement of high accuracy depends on manual error correction and is time-consuming when recognition error rates are high. This project will focus on the research of fast re-recognition based on user feed-back, automatic error correction based on repeated words matching, and on-line supervised language model adaptation using feed-back texts. With these techniques, a system will be developed which can learn from user's feedbacks and improve the performance continuously, resulting in high accuracy with little human interaction. Compared to current methods such as acoustic and languange model adaptation, the approaches proposed take advantages of information of user feed-backs and can achieve higher performance.
近年来,自动语音识别技术取得了长足进展,但面向真实场景的语音转写技术仍然无法满足应用需求。当前出现了一批融合用户反馈的语音识别系统,但这些系统只利用用户反馈信息进行错误修正,高准确率的取得完全依赖于人的操作,无法实现高效的语音转写。针对这一问题,本项目拟研究面向高准确率语音转写的用户反馈学习与识别结果优化方法,研究可融合非确定性反馈的反馈后快速重新识别、基于反馈历史的词汇学习和重复性错误自动修正、基于修正文本的语言模型自适应等关键技术,实现一种利用用户反馈信息不断学习和提高的语音识别系统:用户的每次修正反馈,都会影响当前句的识别结果,与用户修正的字相关联的错误可得到自动修正;同时,系统学习反馈涉及的词汇,调整内部模型,避免相似的错误再次发生。与当前已有的语音识别模型自适应方法相比,本项目研究的方法充分利用了用户反馈中包含的丰富信息,学习更有针对性,对识别性能的提升更为明显。
项目面向高准确率语音转写的需求,研究面向高准确率语音转写的用户反馈学习和识别结果优化方法,该方法充分利用用户的反馈信息进行识别结果的优化和系统内部模型的自适应学习,从而使系统在使用中不断提高,只需较少的人工反馈即可实现高准确率的语音转写。项目研究了可融合非确定性反馈的反馈后快速重新识别、基于反馈历史的词汇学习和重复性错误自动修正、基于修正文本的语言模型自适应三项关键技术,并实现了一个融合用户反馈的语音识别原型系统。在可融合非确定性反馈的反馈后快速重新识别方面,提出了融合非确定性反馈和音节混淆信息的词网格调整和重解码算法。算法可支持确定性和非确定性反馈,根据反馈信息对词网格进行调整并进行快速重解码,实现对候选列表的动态调整。通过快速重新识别,一方面可充分利用识别结果中上下文约束对非确定性反馈的结果进行排序和选择,另一方面基于已修正的部分对尚未修正的识别结果进行调整,得到更为优化的结果。在基于反馈历史的词汇学习和重复性错误自动修正方面,提出了基于快速模板匹配的词汇学习和重复性错误自动修正算法。算法结合自动识别和人工反馈,可将集外词加入识别系统词典并设置其语言模型概率;同时,还自动学习重复出现词的识别结果特征并在后续识别时进行快速匹配和自动纠错,从而避免同一个词被反复识别错误。在基于修正文本的语言模型自适应方面,研发了两种基于修正文本的“关联有监督”语言模型自适应技术,分别是基于修正文本融合预先训练的基于主题的语言模型的方法,以及基于修正文本及互联网语料扩充的语言模型自适应算法。与当前普遍采用的无监督自适应相比,避免了采用识别结果时存在的因识别错误导致预测主题出现偏差的问题,性能可得到较大幅度提升。以上述关键技术为基础,研发了一个融合用户反馈的语音识别系统。针对汉语的特点,首次采用了基于汉字候选列表的反馈方式和交互界面,辅助用户快速进行反馈和修正。系统集成了非确定性反馈处理、候选列表动态调整、词汇学习、重复词错误自动修正、语言模型自适应等算法,实现了一个可以方便接收用户反馈、并利用用户反馈不断学习和提高的语音转写系统。项目研发的算法和系统解决了已有方法存在的问题,具有重要的创新性和实用价值,达到了该研究方向的领先水平。相关成果可应用于语音输入法、语音识别、语音转写等系统中,具有重要的产业应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
复杂环境下语音数据的目标识别与内容转写
面向语音识别的抗噪支持向量机优化算法
面向可穿戴用户行为识别的增量学习方法研究
基于用户行为的搜索结果全页面优化研究