基于多模态的生物特征识别是当前国际上一个重要的前沿研究方向。和传统的使用密码或者身份证件的验证手段相比,生物特征识别技术的优越性在于不会被遗忘以及不容易被盗窃,因而被认为是一种更便捷和安全的识别手段。但是用单一模态的生物特征做识别还存在着诸多局限性,因此近年来基于多模态的生物特征识别得到越来越广泛的重视并已成为该领域新兴的的发展趋势和研究方向。在众多生物特征中,人脸和语音是最具有自然性的两种生物特征。因此在本课题中,我们拟探讨并且建立一个基于视频中的人脸和语音的多模态在线识别系统。在该系统中,我们拟应用和研制一系列新技术包括时域-空域的帧同步技术、非参数子空间、说话人子空间模型、随机子空间等以提高系统性能。通过整合这些新技术,我们提出了一个统一的子空间融合框架来同步处理语音和人脸的生物特征从而实现在线身份识别的目的。本课题的研究不仅具有理论上的创新而且还具有实际上的巨大应用和价值。
本项目以机器学习和计算机视觉技术作为主要手段,研制和开发新的人脸识别和说话人识别技术,探讨基于视频人脸和语音的多模态在线识别系统里的若干关键技术的研究。主要进展包括以下几方面:.(1).研制了一种新的跨年龄阶段人脸识别算法,取得了国际前沿的识别性能 [2]。.(2).研制了两种新的跨模态人脸识别算法,一种针对红外人脸照片识别 [5],另一种针对素描人脸照片识别 [1],均取得国际前沿的识别性能。.(3).另外还提出了一系列方法用于改进人脸识别的性能,比如一种新的编码方法 [3],一种有效的人脸年龄估计模型 [12], 和一种快速有效的视频人脸识别模型 [4]。.(4).在基于语音的说话人识别部分,我们也设计了若干种新的模型,在语音的经典数据库上取得了很好的性能。第一种模型采用聚类的方法提高算法的辨识能力,成果发表于该领域国际著名学术会议ICASSP 2013 [6]。第二种模型采用随机子空间融合的思路和方法来提高说话人识别性能,其成果被国际学术会议Tencon 2013接收 [7]。.(5).我们在2014年进一步提出了一些改进型的说话人识别模型,采用提取更具有辨识能力的语音特征和多重分类器融合的手段进一步提高了识别精度 [9-10]。.(6).另外,研制了一种新的语音转换方法来辅助说话人识别 [8]。.(7).本研究的部分成果具有很强的可扩展性,对于其他领域的研究比如海洋图像分类等具有很大的益处,我们现有研究的一项技术就已成功扩展到海洋图像研究领域,能够快速有效的进行海洋图像分类 [11]。.(8)(8).基于上述研究基础和成果,我们设计了一个基于语音和视频人脸的多模态识别算法模型,能够以在线速度快速有效的进行识别。在国际上大型的多模态语音-人脸数据库XM2VTS上做了实验,取得了很好的性能 [13]。..基于上述研究成果,我们已经发表了13篇EI论文(其中有2篇是SCI论文),其中有多篇论文发表在该领域的国际一流期刊和顶级国际会议上,比如IEEE Transactions on Image Processing, IEEE Journal of Oceanic Engineering, ICCV, ACM Multimedia Conference, ICASSP。发表论文的数量超过了申报书的填报数量。同时还申请了3项专利。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
低轨卫星通信信道分配策略
RIG-I信号通路相关基因多态性与发热伴血小板减少综合征病毒感染发生风险和严重程度的相关性及机制研究
基于人脸表情、身体姿态和语音的多模态情感识别方法研究
基于深度学习的文本和语音多模态数据挖掘研究
基于语音信号和事件相关电位技术的多模态情感识别研究
基于流形学习的智能视频人脸图像的识别和理解