This project dedicates it to the research of the technology associated with singing assistance. The following four aspect need to be further improved: singing voice separation, singing melody extraction, lyric transcription and the evaluation of singing performance. The project intends to make studies of (1) the monaural singing separation based on Non-negative Matrix Partial Co-Factorization and Deep Recurrent Neural Network; (2) the singing melody extraction based on the enhancement of singing harmonic component and the using of smoothness of pitch varying along the time. (3)the automatic lyrics transcription which includes the singing database extension based on feature transformation and spectrum transformation, and the singing modeling framework based on DNN-HMM (Deep Neural Network-Hidden Markov Model); (4) the evaluation of singing performance that combines the features highly according with the subject evaluation and the scoring mechanism based on the feature matching. This project focuses on the singing separation model and the melody extraction model, combing the theoretical analysis and experimental research, and making study of the lyrics transcription and the rational singing performance evaluation. These researches sever the theoretical foundation of singing assistance system.
本项目致力于唱歌辅助系统相关技术的研究,唱声分离、唱声旋律的自动提取、歌词自动转录和歌唱表现的合理评价亟需进一步提高性能。本项目拟研究:(1)基于非负矩阵部分联合分解和基于深度循环神经网络的单声道唱声分离算法;(2)基于唱声谐波增强,结合唱声音高的时域连续性和音高变化的平滑性的自动唱声旋律提取算法;(3)基于特征变换和频谱变换的唱声数据扩展,以深度神经网络-隐马尔可夫模型为基础的唱声建模方案,以优化序列级与识别目标更贴近的目标函数为标准的自动歌词转录算法;(4)基于与主观评价有着较高一致性的特征提取和多特征匹配模型的得分机制,提高歌唱表现的客观评价的合理性。本课题将理论分析和实验研究相结合,旨在建立唱歌辅助系统中唱声分离模型和旋律提取模型,探索有效歌词识别算法,实现唱声的有效分离、旋律的准确提取、歌词转录的准确性和鲁棒性,提高歌唱表现客观评价的合理性,为唱歌辅助系统的应用奠定理论基础。
本项目做了四个方面的研究,具体内容和创新成果如下:.A.唱声分离和语音分离.针对单通道歌曲唱声分离任务,提出一种基于嵌套U-Net和时频掩蔽的声分离算法,同时重构出分离的唱声和伴奏。还提出一种基于双注意力机制和多阶段混合卷积网络的分离模型,也同时输出分离的唱声和伴奏。我们提出的网络具有较小参数量,在三种数据集上获得了优异的唱声分离和伴奏分离性能。.针对单通道混合语音的多说话人语音分离任务,提出一种基于浅层特征重激活机制和多阶段混合注意力机制多说话人语音分离模型,以及一种基于门控残差卷积深度聚类的语音分离模型,这两种模型均同时输出多个目标说话人语音的时域波形。.B.音乐的音高估计.针对音乐的单音音高估计,我们提出一种数据驱动的双注意力网络的音高估计模型,直接对单音音乐的时域波形进行处理,输出一个360维向量,代表360种音高。实验结果显示,具有紧耦合模式的双注意力网络在两种数据集上达到最佳性能。.C.语音情感识别.针对对话语音的情感识别,提出了一中基于深度可分离卷积和反向残差连接的语音情感识别模型,该模型对4类情感识别任务,在语料库 IEMOCAP 和 EmoDB 上的分别达到了71.72%和 90.1%的未加权精度 UA。与目前已知参数量最少的模型相比,我们提出的模型的参数量降低了 5 倍。.提出一种基于多模态交互注意力机制的语音情感识别模型。采用音频和文本两种模态的信息实现语音情感识别已经达到了国际领先的水平,对于7类情感的分类任务,在IEMOCAP语料库的加权准确率达到72.8%,非加权准确率达到62.5%。.D.声音事件检测和声源定位.针对声音事件检测和分类,提出一种基于选择性特征融合的声音事件检测网络。提出的算法在三个指标上在DCASE2018验证集上对比国内国际同行的方法均有一定的提升。.针对声源定位和声音事件检测的联合任务,提出了一种基于自适应混合卷积和多尺度特征提取的声音事件定位与检测算法,该算法能够很好地处理噪声和混响场景下的声源定位与检测任务。与其他主流的算法相比,我们的算法在6种数据集上都取得了较好的结果。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
转录组与代谢联合解析红花槭叶片中青素苷变化机制
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
响应面法优化藤茶总黄酮的提取工艺
混采地震数据高效高精度分离处理方法研究进展
钛合金激光辅助微铣削相关技术基础研究
超声辅助纳米加工系统及其关键技术研究
机场应急救援辅助决策系统关键技术研究
高速汽车辅助驾驶系统的控制理论与关键技术研究