The security of digital multimedia has great influence on public safety, judicial justice and even national security. Passive forensic for digital speech is still a challenge problem need to be solved. This project aims to solve these key problems: cover source mismatch, unknown forgery detection. We will analyze the essential difference between the spoofing and nature speeches and establish a novel passive speech forensic framework based on “Basic forensic feature + Deep learning”. A new standard database for passive speech forensic will be constructed and the methods of cross-domain feature extraction and regulation will be proposed. We will study the novel speech forensic algorithm based on bottleneck feature by exploring the self-learning ability of deep learning. Moreover, a new class of passive speech forensic algorithms will be proposed based on the convolutional deep belief network. We hope that we can make some new research ideas and explore a new technical scheme for solving the key problems of passive speech forensic.
数字多媒体内容安全的研究对于确保公共秩序、维护司法公正,乃至保障国家安全都具有重要意义,数字语音被动取证是其中亟待解决的难点问题之一。本项目围绕数字语音被动取证研究中存在的载体失配、未知伪造操作无法感知等关键科学问题,拟从剖析伪造语音与自然语音的本质差异为切入点,建立“基础取证特征+深度学习”的数字语音被动取证研究框架。在构建数字语音被动取证标准数据库的基础上,研究基础取证特征的跨域提取和规整方法。充分挖掘深度学习在特征自学习方面的能力,研究基于瓶颈特征的被动取证新方法。构建基于卷积深度置信网络的深度学习模型,探索一类适用于数字语音被动取证的新方法。力求在已有研究工作的基础上,形成新的研究思路,为解决数字语音被动取证难题探索出一套新的理论和技术方案。
数字音频/语音是日常生活中较为容易获得的数字媒体。然而,对音频的编辑和修改则非常简单和廉价,且人耳难以察觉留下的痕迹。为了有效验证音频的原始性、完整性和真实性,数字音频被动取证技术应运而生。已有许多该方面的研究工作,但普遍存在着特征构造复杂、载体失配以及感知未知篡改操作能力弱等问题。近年来,深度学习受到广泛关注,其具有更强的表达能力和学习能力,擅长提取复杂的全局特征和上下文信息。基于此,课题组创新性地开展了基于深度学习的数字语音被动取证研究,主要包括以下内容:.1)数字语音被动取证基准样本库构建。针对本领域样本库缺乏的问题,以音频抓轨和现场录制的方式,构建了时长5小时,包含10种音乐流派、4种语言的音频数据库以及由38种录音设备录制的31位说话人的语音数据库。.2)二次翻录语音取证研究。研究发现原始与二次翻录的语音差异主要在高频部分。据此提出了修正倒谱、带阻滤波倒谱等取证特征以及归一化信道补偿方法;开发了基于语谱图的卷积神经网络取证方法。相关方法在所构建的样本库上,识别率达99.26%;在其他公开样本库上,与基线方法相比有26%的提升。.3)录音来源设备取证研究。以录音设备特性作为切入点,提出了编码参数和设备本底噪声估计等取证特征;深入探究了基于融合特征的卷积神经网络取证方法,该方法对于干净和含噪语音的识别准确率分别在95%和90%以上。.4)音频重压缩取证研究。剖析了音频压缩编解码原理;针对AAC格式提出了基于比例因子、量化改进离散余弦变换系数的取证方法,在低码率转高码率的检测率达99.84%、同码率达98.60%;针对MP3格式设计了基于哈夫曼码表的方法,对于一至三次压缩率为128kbps的MP3压缩检测率分别为98.66%、55.14%、85.01%。.5)项目成立以来,还开展了音频变调、重采样、多种伪造操作的取证研究及隐写分析、对抗样本生成等研究。累计发表和收录期刊及会议论文53篇,其中14篇为SCI检索,18篇为EI检索;授权发明专利16项;培养毕业硕士研究生21名,博士研究生2名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
利用环境特征的数字语音被动取证及反取证技术研究
基于PRNU的数字图像成像渠道被动取证研究
基于深度学习的音频取证技术研究
数字图像被动盲取证方法研究