基于无监督学习方法的口语理解与人机对话行为研究

基本信息
批准号:61663044
项目类别:地区科学基金项目
资助金额:42.00
负责人:黄浩
学科分类:
依托单位:新疆大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:徐海华,黄志华,周培勇,马平,程露红,杨萌萌,包武杰,张晶晶,许莹莹
关键词:
深度学习无监督学习对话管理口语理解口语对话系统
结项摘要

Spoken language understanding is an important research topic in human-computer speech interaction. This project applies the successful unsupervised learning methods in machine learning research community to spoken language understanding and representation learning task in spoken dialogue systems. We propose to use unsupervised slot induction and annotation using a joint learning approach to reduce the overheads of semantic frame design and labeling by experienced linguists. Distributed representation of words (word embedding) is proposed to facilitate unsupervised slot induction; We then propose to improve the robustness of spoken language understanding under the conditions of erroneous speech recognition and ungrammatical language input, by taking the advantage of recently proposed de-noising auto-encoder methods; Finally we propose automatic estimation of the continuous representation of dialogue states and actions to reduce sparsity in traditional dialogue management system that makes use of discrete semantic representation, and use deep reinforcement learning algorithms for automatic derivation of dialogue policies. Experiments and analysis are to be carried out, and new unsupervised learning paradigms and methodologies that seek to improve the scalability, robustness and sparsity elimination of spoken dialogue system are to be established.

口语理解是人机语音交互中的重要研究课题。本课题将近年来机器学习研究领域中的无监督学习方法应用于人机口语对话系统中的口语理解以及人机对话行为的表示学习。提出无监督的语义槽发现与口语语义联合标注的研究方案,结合词嵌入方法,减少大数据以及开放对话主题条件下语义框架的人工定义和语义标注成本;提出基于降噪自编码器的错误文本恢复的口语理解方案,在有语音识别错误以及不符合文法的口语输入时保持口语理解输出的稳健性;提出基于连续空间表示的系统状态与对话策略的研究方案,通过自动估计系统状态和对话策略的连续表示向量,克服传统离散表示方法的稀疏性问题以及需要专家经验设计的不足,并采用深度强化学习方法学习人机对话策略。验证所提出方法的有效性,以期减少人机口语对话系统中的需要人工经验的设计与标注工作,得到提高人机口语对话系统中口语理解的可扩展性、稳健性以及解决对话行为表示稀疏性问题的新方法和新见解。

项目摘要

随着近年来深度神经网络以及海量语音数据在大词汇连续语音识别中的成功应用,语音识别正确率获得了极大提升,这使得更加自然的语音交互成为可能。语音交互最终目的不仅仅局限于将语音输入转化为相应文字,其根本任务在于让计算机理解人的自然语言并做出正确响应,形成人机口语对话系统。..本课题围绕人机对话系统的各个环节进行了深入研究:在有监督的口语理解任务方面提出了提出一种改进的循环神经网络方法,该方法通过添加存储历史状态信息,能够存储更长时的信息。在双向长短时记忆网络的基础上,提出一种用于口语理解的标签拆分策略,并构建一个联合模型。通过将各个标签分类转换成独立的分类,平衡了对话数据集的标签。提出将集成学习方法应用于五种不同神经网络文本分类器,分别对两种常用的集成学习方法方法进行了测试。提出使用目前在大词汇量连续语音识别任务中普遍使用的多层时延神经网络(TDNN)。特别地使用了具有对称时延偏移量的TDNN。为了使堆叠的网络易于训练,采用残差结构和跳跃连接,并引入了残差时延神经网络-长短时记忆进一步改进口语理解性能。提出一种引入BERT的文本分类方法,该模型具有由全自注意力网络和图卷积网络构成的双向编码器表示,称为门控上下文的图卷积网络。对语种切换语音识别中的单语言数据选择策略进行分析,提出了一系列互补的方法来提高混合语音识别系统中对弱表示的命名实体的识别率,并且不影响整体的识别词错率。提出基于传统框架多语种识别的方法来识别英语语音,以及说话人相关的口音信息。具体来说,假设每种英语的口音属于不同的语言,然后将它们合并在一起,并训练一个多语种语音识别系统。提出基于辅助基频的时域语音分离方法。该方法使用时域信号作为直接输入预分离模块生成预分离语音,并从预分离语音中提取基频。然后将提取的基频与原始混音拼接,作为后分离模块的输入进行第二次分离,实验验证了该方法的有效性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018

黄浩的其他基金

批准号:40706042
批准年份:2007
资助金额:18.00
项目类别:青年科学基金项目
批准号:41905019
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:81173099
批准年份:2011
资助金额:40.00
项目类别:面上项目
批准号:81660595
批准年份:2016
资助金额:36.50
项目类别:地区科学基金项目
批准号:41872036
批准年份:2018
资助金额:65.00
项目类别:面上项目
批准号:81803493
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:60273077
批准年份:2002
资助金额:22.00
项目类别:面上项目
批准号:81902582
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:31900703
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:61365005
批准年份:2013
资助金额:45.00
项目类别:地区科学基金项目
批准号:51408081
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:60965002
批准年份:2009
资助金额:24.00
项目类别:地区科学基金项目
批准号:61502347
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:81760247
批准年份:2017
资助金额:34.00
项目类别:地区科学基金项目
批准号:41102007
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于弱监督和迁移学习的深度文本理解模型学习方法

批准号:61876144
批准年份:2018
负责人:管子玉
学科分类:F0606
资助金额:62.00
项目类别:面上项目
2

基于深度学习的鲁棒口语理解研究

批准号:61573241
批准年份:2015
负责人:俞凯
学科分类:F0605
资助金额:64.00
项目类别:面上项目
3

面向高光谱影像解译的无监督迁移深度表示模型与学习方法

批准号:61906147
批准年份:2019
负责人:张明阳
学科分类:F0601
资助金额:24.00
项目类别:青年科学基金项目
4

基于话语理解的交互式口语翻译方法研究

批准号:60575043
批准年份:2005
负责人:宗成庆
学科分类:F0606
资助金额:26.00
项目类别:面上项目