基于分段条件随机场的连续语音识别技术

基本信息
批准号:61175017
项目类别:面上项目
资助金额:58.00
负责人:屈丹
学科分类:
依托单位:中国人民解放军战略支援部队信息工程大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:王炳锡,张连海,王波,王刚,李真,张文林,高毫林,陈斌,许友亮
关键词:
连续语音识别点过程模型说话人自适应分段条件随机场基于模板的识别
结项摘要

连续语音识别技术对国家信息安全有重要的意义。当前主流的基于连续密度隐马尔可夫模型(CDHMM)的大词汇量连续语音识别方法没有考虑人的思维认知过程,忽略了很多高层知识,因此可以提高的性能有限。因此,需要研究多元、多颗粒度信息整合的连续语音识别框架、模型和技术。分段条件随机场(SCRF)在多层次信息有效整合方面具有独特优势,因此,本项目主要研究基于分段条件随机场的连续语音识别模型及关键技术。首先在语音信息表示机理方面,研究多元、多颗粒度信息特征表示方法,包括新型模板匹配识别、点过程模型、说话人自适应等信息的表示;其次研究分段条件随机场的信息整合机制,减少对整合信息的条件限制;最后将多种信息最大限度地整合到分段条件随机场,实现更符合人类思维认知的连续语音识别。本项目研究将有望解决HMM模型连续语音识别面临的瓶颈问题,丰富语音识别的理论算法,为从深层次、多角度认知与语音提供有效手段。

项目摘要

主流连续语音识别采用数据驱动的模型方法,忽略了语音认知知识,因此基于多元、多颗粒度信息整合框架的连续语音识别技术应运而生,该方法引入声学、语言等多层次信息,更符合人类思维内在的模式。本课题旨在突破传统模型的固有缺陷,研究基于分段条件随机场的连续语音识别技术,结合语音学知识及新型模型和信息融合等先进方法和手段,建立更符合人类思维认知方式的语音识别系统,使得系统识别率更高,在复杂环境下更具鲁棒性。.在分段条件随机场整合模型方面,通过对模型目标函数进行改进,引入区分性机制来改善识别率,并最大限度减少对信息整合的条件限制。在特征表示方面,获取多元、多颗粒度的有效信息表示,为SCRF提供分类特征,具体为:一是研究多种颗粒度的语音信息表示方法,包括长时性语音音位属性、音素边界、突变标识等及音素识别;二是研究能够更好刻画语音的时间变化模式且便于语义分类的点过程模型以及点过程模型信息的表示方法;三是研究说话人自适应信息表示,构造说话人、音子子空间,研究不同子空间和分层贝叶斯自适应算法;四是词格后处理及集外词处理处理,词格中含有丰富的语义信息,因此也是SCRF的信息重要来源之一;五是深度神经网络改进技术,将基于深度学习的方法作为有效信息进行表示,并对DNN模型结构进行改进,减少过拟合并且增强鲁棒性。.本课题完备了连续语音识别领域的多元信息表示方案,建立了多信息整合方法理论,提升了系统的准确率和鲁棒性。研究团队发表高质量论文54余篇,包括IEEE Transaction、Speech Communication、Eurosip、自动化学报、电子与信息学报近20篇,及本领域最高水平的国际会议Interspeech和ASRU 3篇等,其中一名博士生正申报河南省优秀博士论文。通过本项目的研究,完成重要少数民族语言(蒙、维)语音资源库建设,数据总量达到百小时,可供训练与测试。申请国家专利2项,开发的软件系统在实际单位应用取得了较好效果,2014年获得省部级科技进步二等奖1项。部分理论成果正在撰写专著《现代连续语音识别技术》,预计2016年上半年出版。本项目培养了22名硕士生和4名博士研究生。在基金的资助下,本项目达到了预期研究目标,项目研究方法为语音识别系统实用化和性能提升提供了一些切实有效的理论和方法,也为相关领域的研究提供借鉴。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

屈丹的其他基金

批准号:61673395
批准年份:2016
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于知识的汉语连续语音识别和理解

批准号:69072924
批准年份:1990
负责人:戴蓓倩
学科分类:F0211
资助金额:4.00
项目类别:面上项目
2

低资源连续语音识别中的集外词处理技术

批准号:61673395
批准年份:2016
负责人:屈丹
学科分类:F0605
资助金额:62.00
项目类别:面上项目
3

汉语连续语音识别的声学语音学模型研究

批准号:69672010
批准年份:1996
负责人:富煜清
学科分类:F0111
资助金额:8.00
项目类别:面上项目
4

面向连续语音的哈萨克语关键词识别技术研究

批准号:61462084
批准年份:2014
负责人:达吾勒·阿布都哈依尔
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目