复杂环境下语音数据的说话人识别及关键词关联检索

基本信息
批准号:U1836220
项目类别:联合基金项目
资助金额:247.00
负责人:毛启容
学科分类:
依托单位:江苏大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:杨小汕,詹永照,钱胜胜,贾洪杰,王良君,林庆,朱倩,金圣开,张飞飞
关键词:
说话人识别复杂环境语音检索与推理说话内容理解语音分析
结项摘要

This program introduces a new research focusing on the theory and methods of single channel multi-speaker speech data separation, authentication, content comprehension and retrieval in complex conversation environment, which attempts to tackle the problem of single channel speech data separation in complex environment, and the understanding of the data meaning and correlations between them. The main contributions are three folds. First, in order to effectively retain more content information of the original samples after the speech data separation, we introduce multi-source coordination and context for single channel speech enhancement and multi-speaker overlapping speech signal separation. Second, in order to accurately discover, identify speaker and understand the meaning of the speech, we introduce incremental clustering for speaker discovery, robust cross-domain multilingual speech recognition, and deep topic model. Third, in order to fully understand the intention of multi-speaker in complex scenarios, we introduce a method integrates the social media and speech information to construct knowledge graph, and then conducts associative retrieval and reference of it based on syllable lattice. We aim to achieve theoretical breakthrough in single channel speech data separation, speaker identification, topic content comprehension, keywords associative retrieval and inference under massive complex speech data, which can promote the theoretical research, technological innovation and application development of the processing, analysis, and understanding for the complex speech data in human computer interaction and public security areas.

针对复杂环境下单通道语音数据分离困难,数据含义及关联复杂,难于理解和利用的问题,开展复杂环境下单通道多说话人语音数据分离、鉴别、内容理解与检索推理的理论与方法研究。研究多源协同的单通道语音增强,上下文辅助的多说话人重叠语音信号分离方法,使得分离后的纯净语音数据最大程度保留说话内容信息;研究增量式聚类的说话人发现和鉴别、跨域鲁棒多语种语音识别、基于深度主题模型的说话内容理解及主题摘要生成,准确识别和理解每个说话人的说话内容和含义;研究面向复杂说话场景的知识图谱构建、基于音节网格的知识图谱关联检索以及基于知识图谱的说话人意图推理,综合社交媒体和语音信息,充分理解复杂多人说话场景的意图。在复杂环境单通道语音数据有效分离、说话人鉴别和话题内容理解以及海量语音信息关键词关联检索与推理等方面实现理论突破,促进新型人机交互和公共安全等领域复杂语音数据处理、分析及深层理解的理论研究、技术创新与应用发展。

项目摘要

本项目重点开展复杂声学环境下说话人识别与关键词关联检索的研究。针对多说话人、跨信道、小样本的复杂场景下的语音数据,研究语音分离、说话人识别以及关键词关联检索与推理。在项目的执行过程中,按照项目计划书要求开展工作,已完成了所有的研究计划内容,并对部分内容进行了拓展性研究。在如下几方面取得了重要研究进展:①在复杂数据单通道语音数据抽取方面,提出了基于加权-生成因子-自编码器的单通道多人混叠语音分离、面向长时序语音的单通道语音增强、任务驱动的声学特征解耦学习等方法; ②在说话人识别、说话内容理解方面,提出了基于辅助对抗任务和多重加权特征融合的说话人验证、自适应层次聚合的弱监督声音事件检测以及基于词法知识的零样本学习等方法;③在知识图谱关联的语音信息关联推理方面,提出了多模态多关系知识图谱表示学习、基于对偶场景图卷积网络的行为识别与意图预测、基于图对比注意力网络的知识图谱补全以及基于图对比的知识图谱上下位关系识别等方法;④在语音关键词检索方面,提出了基于跨模态注意力机制的语音关键词检索、跨语言的语音关键词检索等方法。⑤项目组将所提出的算法应用于安防/边防领域,提高多模态异常事件检测的准确率。项目组共在期刊和会议上发表学术论文46篇,其中25篇进入SCI检索源,14篇进入EI检索源,获得ACM Multimedia最佳论文候选1篇。论文中有13篇发表在本领域顶级会议ACM MM、ICASSP、Interspeech和ICME上;申请国家发明专利14件,其中PCT专利1件,已授权3件。共培养研究生32名,其中已毕业博士研究生10名、硕士研究生11名,在读博士研究生4名、硕士研究生7名。尤为重要的是,所研发的声音事件检测技术已进行了成果的应用转化,并应用于安防领域,提高多模态异常事件检测的准确率。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

相似国自然基金

1

复杂环境下语音数据的说话人识别及关键词检索

批准号:U1836219
批准年份:2018
负责人:张卫强
学科分类:F0605
资助金额:249.00
项目类别:联合基金项目
2

噪声和短语音条件下的说话人识别

批准号:61370034
批准年份:2013
负责人:张卫强
学科分类:F0605
资助金额:82.00
项目类别:面上项目
3

复杂声学环境下的说话人语音信息的抽取、分离和识别

批准号:90920002
批准年份:2009
负责人:王岚
学科分类:F0113
资助金额:50.00
项目类别:重大研究计划
4

复杂场景下的说话人特征提取及识别研究

批准号:61876160
批准年份:2018
负责人:洪青阳
学科分类:F0605
资助金额:62.00
项目类别:面上项目