基于视频人脸和语音的多模态在线识别系统的研究和开发

基本信息

批准号：61103164

项目类别：青年科学基金项目

资助金额：24.00

负责人：李志锋

学科分类：

依托单位：中国科学院深圳先进技术研究院

批准年份：2011

结题年份：2014

起止时间：2012-01-01 - 2014-12-31

项目状态：已结题

项目参与者：王星星,周强,宫博庆,何恺明

关键词：

说话人子空间随机子空间多模态生物特征识别特征层次融合非参数子空间

结项摘要

基于多模态的生物特征识别是当前国际上一个重要的前沿研究方向。和传统的使用密码或者身份证件的验证手段相比，生物特征识别技术的优越性在于不会被遗忘以及不容易被盗窃，因而被认为是一种更便捷和安全的识别手段。但是用单一模态的生物特征做识别还存在着诸多局限性，因此近年来基于多模态的生物特征识别得到越来越广泛的重视并已成为该领域新兴的的发展趋势和研究方向。在众多生物特征中，人脸和语音是最具有自然性的两种生物特征。因此在本课题中，我们拟探讨并且建立一个基于视频中的人脸和语音的多模态在线识别系统。在该系统中，我们拟应用和研制一系列新技术包括时域-空域的帧同步技术、非参数子空间、说话人子空间模型、随机子空间等以提高系统性能。通过整合这些新技术，我们提出了一个统一的子空间融合框架来同步处理语音和人脸的生物特征从而实现在线身份识别的目的。本课题的研究不仅具有理论上的创新而且还具有实际上的巨大应用和价值。

项目摘要

本项目以机器学习和计算机视觉技术作为主要手段，研制和开发新的人脸识别和说话人识别技术，探讨基于视频人脸和语音的多模态在线识别系统里的若干关键技术的研究。主要进展包括以下几方面：.（1）.研制了一种新的跨年龄阶段人脸识别算法，取得了国际前沿的识别性能 [2]。.（2）.研制了两种新的跨模态人脸识别算法，一种针对红外人脸照片识别 [5]，另一种针对素描人脸照片识别 [1]，均取得国际前沿的识别性能。.（3）.另外还提出了一系列方法用于改进人脸识别的性能，比如一种新的编码方法 [3]，一种有效的人脸年龄估计模型 [12], 和一种快速有效的视频人脸识别模型 [4]。.（4）.在基于语音的说话人识别部分，我们也设计了若干种新的模型，在语音的经典数据库上取得了很好的性能。第一种模型采用聚类的方法提高算法的辨识能力，成果发表于该领域国际著名学术会议ICASSP 2013 [6]。第二种模型采用随机子空间融合的思路和方法来提高说话人识别性能，其成果被国际学术会议Tencon 2013接收 [7]。.（5）.我们在2014年进一步提出了一些改进型的说话人识别模型，采用提取更具有辨识能力的语音特征和多重分类器融合的手段进一步提高了识别精度 [9-10]。.（6）.另外,研制了一种新的语音转换方法来辅助说话人识别 [8]。.（7）.本研究的部分成果具有很强的可扩展性，对于其他领域的研究比如海洋图像分类等具有很大的益处，我们现有研究的一项技术就已成功扩展到海洋图像研究领域，能够快速有效的进行海洋图像分类 [11]。.（8）（8）.基于上述研究基础和成果，我们设计了一个基于语音和视频人脸的多模态识别算法模型，能够以在线速度快速有效的进行识别。在国际上大型的多模态语音-人脸数据库XM2VTS上做了实验，取得了很好的性能 [13]。..基于上述研究成果,我们已经发表了13篇EI论文（其中有2篇是SCI论文）,其中有多篇论文发表在该领域的国际一流期刊和顶级国际会议上，比如IEEE Transactions on Image Processing, IEEE Journal of Oceanic Engineering, ICCV, ACM Multimedia Conference, ICASSP。发表论文的数量超过了申报书的填报数量。同时还申请了3项专利。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

李志锋的其他基金

批准号：61874126

批准年份：2018

资助金额：63.00

项目类别：面上项目

批准号：61376053

批准年份：2013

资助金额：85.00

项目类别：面上项目

批准号：81703284

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：21463023

批准年份：2014

资助金额：50.00

项目类别：地区科学基金项目

批准号：10474108

批准年份：2004

资助金额：28.00

项目类别：面上项目

批准号：60244002

批准年份：2002

资助金额：13.00

项目类别：专项基金项目

相似国自然基金

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

批准号：61501249

批准年份：2015

负责人：闫静杰

学科分类：F0116

资助金额：19.00

项目类别：青年科学基金项目

基于深度学习的文本和语音多模态数据挖掘研究

批准号：61672301

批准年份：2016

负责人：裴志利

学科分类：F0605

资助金额：62.00

项目类别：面上项目

基于语音信号和事件相关电位技术的多模态情感识别研究

批准号：61103074

批准年份：2011

负责人：赵子平

学科分类：F0605

资助金额：21.00

项目类别：青年科学基金项目

基于流形学习的智能视频人脸图像的识别和理解

批准号：90820009

批准年份：2008

负责人：夏良正

学科分类：F0604

资助金额：50.00

项目类别：重大研究计划

基于视频人脸和语音的多模态在线识别系统的研究和开发

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于国产化替代环境下高校计算机教学的研究

外泌体在胃癌转移中作用机制的研究进展

基于铁路客流分配的旅客列车开行方案调整方法

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

李志锋的其他基金

高消光比偏振焦平面像元的腔模亚波长临界耦合结构研究

等离激元耦合腔量子阱红外探测器的偏振耦合增强研究

RIG-I信号通路相关基因多态性与发热伴血小板减少综合征病毒感染发生风险和严重程度的相关性及机制研究

过渡金属亲金属键作用本质及其配合物光学性能构效的客场弱键串联调控

多重光散射提高量子阱红外探测器性能研究

HgCdTe的材料芯片方法研究

相似国自然基金