Various audio data that can be obtained by ordinary people are explosively growing in current era of big data. The demand of content analysis and understanding for massive complex audio becomes increasingly urgent. The strategies of speaker analysis for complex audio currently lack the following components: deep features for effectively representing the characteristic differences of both audio events and speakers, methods for jointly optimizing deep speaker representation and speaker clustering, and methods for effectively estimating speaker roles. In order to solve these aforementioned problems, this project mainly explores novel methods of speaker analysis for complex audio based on deep learning, and plans to perform the following four research works: 1) audio event detection; 2) speaker segmentation; 3) speaker clustering; 4) speaker role estimation. This project aims to make up the limitations of current methods, and aims to improve the performance of speaker semantic analysis and understanding for complex audio. . The issues investigated in this project are hot research topics in the fields of audio content analysis and understanding. Research on these issues is theoretically challenging and crucial basis for multimedia content analysis, audio surveillance and scene analysis, speaker retrieval, and multi-speaker speech recognition. When this project is finished, we plan to publish 8 to10 SCI/EI-indexed papers (at least 3 SCI-indexed journal papers), submit 2 to 4 patents and train 4 to 6 postgraduate students.
在当今大数据时代,人们可获取的各类音频数据呈爆炸式增长。海量复杂音频内容分析与理解的需求变得越来越迫切。目前复杂音频说话人分析策略缺乏:有效表征音频事件和说话人特性差异的深层特征、联合优化说话人深层特征与聚类的方法、有效估计说话人角色的方法。为了解决上述问题,本项目主要探索基于深度学习的复杂音频说话人分析新方法,拟在四个方面开展研究:1)音频事件检测;2)说话人分割;3)说话人聚类;4)说话人角色估计。旨在通过本项目的研究,弥补目前方法的不足,进一步提高复杂音频说话人语义分析与理解的性能。. 本项目研究内容是音频内容分析与理解的研究热点,理论上具有一定的挑战性,在应用上是多媒体内容分析、音频监控与场景分析、说话人检索、多说话人语音识别等系统研发的重要基础。预期发表SCI/EI论文8~10 篇(至少3篇SCI期刊论文),申请发明专利2~4件,培养研究生4~6名。
为了分析与理解海量复杂音频数据中的说话人信息,弥补目前方法存在的不足,本项目开展了基于深度学习的复杂音频说话人分析关键技术研究。本项目组主要围绕音频事件检测、说话人分割与聚类、说话人角色估计等研究内容开展研究工作,并提出了一些具有参考价值的有效方案,解决了目前复杂音频说话人分析存在的问题。本项目的研究成果能直接应用于智能家居、智能辅助驾驶、音频内容分析与理解、说话人发音障碍评测等领域,具有广泛的应用前景。. 本项目资助发表了16篇学术论文(包括4篇IEEE Transactions期刊论文和5篇IEEE ICASSP会议论文)、资助获得了5件发明专利授权。本项目负责人获得了1项中国康复医学会科学技术一等奖。本项目组开发的“手机录音源识别语音数据库”被中文语言资源联盟收录,并与中国中文信息学会签订了1项技术服务合同。以本项目研究内容作为研究课题,本项目负责人培养了16名硕士研究生(包括7名国际留学生)、协助培养了3名博士研究生、协助了1名博士后开展研究工作、指导了4名本科生以第一作者发表学术论文或获得发明专利授权。. 综上所述,本项目组围绕研究内容提出了相应解决方案,相关研究成果主要以论文和专利的形式公开发表。本项目资助培养了研究生和本科生,并资助项目组成员参加了国内外学术交流。本项目计划内的研究工作已经完成,预期研究目标已经达到。通过开展本项目的研究工作,本项目组成员特别是项目负责人积累了一定的项目研究经验,为日后开展科研工作奠定了坚实的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于图卷积网络的归纳式微博谣言检测新方法
基于深度学习的音频取证技术研究
会议音频中的声学事件检测及说话人分析方法研究
基于深度学习的水下复杂环境感知关键技术研究
说话人电子变调伪装识别取证及音频变调取证