基于深度学习的数字语音被动取证新方法研究

基本信息

批准号：61672302

项目类别：面上项目

资助金额：63.00

负责人：王让定

学科分类：

依托单位：宁波大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：钱江波,严迪群,樊少菁,傅松寅,胡国伟,金超,李倩,陶表犁,张坚

关键词：

全局伪造深度学习算法数字语音取证载体失配

结项摘要

The security of digital multimedia has great influence on public safety, judicial justice and even national security. Passive forensic for digital speech is still a challenge problem need to be solved. This project aims to solve these key problems: cover source mismatch, unknown forgery detection. We will analyze the essential difference between the spoofing and nature speeches and establish a novel passive speech forensic framework based on “Basic forensic feature + Deep learning”. A new standard database for passive speech forensic will be constructed and the methods of cross-domain feature extraction and regulation will be proposed. We will study the novel speech forensic algorithm based on bottleneck feature by exploring the self-learning ability of deep learning. Moreover, a new class of passive speech forensic algorithms will be proposed based on the convolutional deep belief network. We hope that we can make some new research ideas and explore a new technical scheme for solving the key problems of passive speech forensic.

数字多媒体内容安全的研究对于确保公共秩序、维护司法公正，乃至保障国家安全都具有重要意义，数字语音被动取证是其中亟待解决的难点问题之一。本项目围绕数字语音被动取证研究中存在的载体失配、未知伪造操作无法感知等关键科学问题，拟从剖析伪造语音与自然语音的本质差异为切入点，建立“基础取证特征+深度学习”的数字语音被动取证研究框架。在构建数字语音被动取证标准数据库的基础上，研究基础取证特征的跨域提取和规整方法。充分挖掘深度学习在特征自学习方面的能力，研究基于瓶颈特征的被动取证新方法。构建基于卷积深度置信网络的深度学习模型，探索一类适用于数字语音被动取证的新方法。力求在已有研究工作的基础上，形成新的研究思路，为解决数字语音被动取证难题探索出一套新的理论和技术方案。

项目摘要

数字音频/语音是日常生活中较为容易获得的数字媒体。然而，对音频的编辑和修改则非常简单和廉价，且人耳难以察觉留下的痕迹。为了有效验证音频的原始性、完整性和真实性，数字音频被动取证技术应运而生。已有许多该方面的研究工作，但普遍存在着特征构造复杂、载体失配以及感知未知篡改操作能力弱等问题。近年来，深度学习受到广泛关注，其具有更强的表达能力和学习能力，擅长提取复杂的全局特征和上下文信息。基于此，课题组创新性地开展了基于深度学习的数字语音被动取证研究，主要包括以下内容：.1）数字语音被动取证基准样本库构建。针对本领域样本库缺乏的问题，以音频抓轨和现场录制的方式，构建了时长5小时，包含10种音乐流派、4种语言的音频数据库以及由38种录音设备录制的31位说话人的语音数据库。.2）二次翻录语音取证研究。研究发现原始与二次翻录的语音差异主要在高频部分。据此提出了修正倒谱、带阻滤波倒谱等取证特征以及归一化信道补偿方法；开发了基于语谱图的卷积神经网络取证方法。相关方法在所构建的样本库上，识别率达99.26%；在其他公开样本库上，与基线方法相比有26%的提升。.3）录音来源设备取证研究。以录音设备特性作为切入点，提出了编码参数和设备本底噪声估计等取证特征；深入探究了基于融合特征的卷积神经网络取证方法，该方法对于干净和含噪语音的识别准确率分别在95%和90%以上。.4）音频重压缩取证研究。剖析了音频压缩编解码原理；针对AAC格式提出了基于比例因子、量化改进离散余弦变换系数的取证方法，在低码率转高码率的检测率达99.84%、同码率达98.60%；针对MP3格式设计了基于哈夫曼码表的方法，对于一至三次压缩率为128kbps的MP3压缩检测率分别为98.66%、55.14%、85.01%。.5）项目成立以来，还开展了音频变调、重采样、多种伪造操作的取证研究及隐写分析、对抗样本生成等研究。累计发表和收录期刊及会议论文53篇，其中14篇为SCI检索，18篇为EI检索；授权发明专利16项；培养毕业硕士研究生21名，博士研究生2名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2022

DOI：10.19596/j.cnki.1001-246x.8419

发表时间：2022

DOI：10.3969/j.issn.0255-8297.2020.01.002

发表时间：2020

DOI：10.3724/sp.j.1089.2022.19009

发表时间：2022

DOI：

发表时间：2019

王让定的其他基金

批准号：60672070

批准年份：2006

资助金额：26.00

项目类别：面上项目

批准号：60572096

批准年份：2005

资助金额：6.00

项目类别：面上项目

批准号：60873220

批准年份：2008

资助金额：33.00

项目类别：面上项目

批准号：61170137

批准年份：2011

资助金额：56.00

项目类别：面上项目

相似国自然基金

利用环境特征的数字语音被动取证及反取证技术研究

批准号：61402219

批准年份：2014

负责人：赵洪

学科分类：F0205

资助金额：27.00

项目类别：青年科学基金项目

基于PRNU的数字图像成像渠道被动取证研究

批准号：61070195

批准年份：2010

负责人：彭飞

学科分类：F0206

资助金额：33.00

项目类别：面上项目

基于深度学习的音频取证技术研究

批准号：61602318

批准年份：2016

负责人：罗达

学科分类：F0206

资助金额：20.00

项目类别：青年科学基金项目

数字图像被动盲取证方法研究

批准号：60973113

批准年份：2009

负责人：李峰

学科分类：F0206

资助金额：30.00

项目类别：面上项目

基于深度学习的数字语音被动取证新方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

物联网中区块链技术的应用与挑战

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

一种改进的多目标正余弦优化算法

王让定的其他基金

网络数字音频集群式版权保护和认证的关键技术研究

基于语义无损的音频隐藏保密语音的关键技术研究

适于MPEG音频播放控制的音频水印关键技术研究

压缩域音频隐写分析关键技术及理论研究

相似国自然基金