Machine learning is widely used in malware detection system as a core component. The machine learning algorithm is designed under the assumption that the underlying data distribution is stable for training and testing which make it vulnerable to well-crafted malware concept drift attacks, such as mimicry attacks, gradient descent attacks, poisoning attacks and so on. Machine learning itself can be the weakest link in a detection system. This project focus on adversarial learning technique to mitigate malware concept drift threat. The research includes: 1. Instead of fixed and empirical threshold, we will use fine-grained statistical p-values to recognize concept drift before model aging; 2. We plan to use multi-model detection method that based on conformal prediction algorithm to analysis malicious concept drift from multi-perspectives; 3. Sliding time windows are introduced to identify and assess concept drift effect on predictive features before model performance degrading, and re-weight features to mitigate model aging.
机器学习模型已被广泛应用在恶意代码的检测系统中。机器学习的前提假设是底层数据的分布规律要具有稳定性。恶意代码的变异和进化速度快,数据分布规律的稳定性差。闪避攻击、毒饵攻击等,使恶意代码底层数据产生概念漂移(Concept Drift),实现躲避或误导机器学习模型的检测。机器学习被认为是恶意代码检测系统中最薄弱的环节。本项目将针对恶意代码变异和进化过程的概念漂移问题,研究动态和协同的对抗学习技术。研究内容包括:1. 改进基于经验的最优阈值预测方法,使用更加细粒度的可信度预测,感知底层数据分布规律的变化;2.基于滑动时间窗的在线学习,跟踪恶意代码的概念漂移过程,预测漂移的趋势,动态更新模型;3. 多种异构恶意代码检测模型的协同学习,基于可信度评估恶意代码概念漂移对不同模型的影响,通过对比发现各种模型的优缺点,取长补短,实现协同防御。
恶意代码的自我快速变异和进化,是目前基于机器学习算法的检测模型的主要威胁。变异和进化使恶意代码底层数据分布产生概念漂移(concept drift)。而机器学习算法的前提假设是训练集和测试集数据的分布规律具有稳定性,概念漂移打破了数据分布规律的稳定性,致使基于机器学习的恶意代码检测模型面临严重的退化风险。本项目的主要研究内容分别为基于可信度的统计学习方法、基于滑动时间窗的在线学习方法和异构模型的协同学习平台。基于可信度的统计学习方法,突破了基于经验的最优阈值判断方法,以更加细粒度的可信度度量和可接受的最大出错概率来实现恶意代码的检测,和对恶意代码数据分布规律变化的感知;基于滑动时间窗的在线学习方法,使恶意代码检测模型能够不断地学习、吸收新知识,保持模型能够持续跟踪恶意代码的概念漂移,并对漂移的趋势做出持续的预测;异构模型的协同学习平台,使从不同角度对恶意代码进行建模的算法,它们的预测结果能够被统计学习,发现预测结果在可信度上的差异,取长补短,实现了交叉学习。.本项目通过在线的基于可信度的对抗学习方法,应对恶意代码的变异、进化过程对机器学习模型产生的概念漂移攻击,提高现有恶意代码检测模型的对抗能力。提出基于p-value的一致性统计学习方法,突破基于预设固定阈值的“0”或者“1”的预测模式,使用更加细粒度的统计学习的可信度,是模型在退化之前,能提前感知到恶意代码数据分布规律的漂移现象;实现基于滑动时间窗和APV算法的恶意代码概念漂移检测,利用对时间敏感的在线学习方法,感知恶意代码底层数据分布规律随时间的变化趋势,检测恶意代码的概念漂移攻击;完成基于SIM和DIFF算法的特征点受攻击影响评估方法,深入评估概念漂移对异构模型间特征点的影响,通过对比发现各种模型的优缺点,通过异构模型的互相学习和特征工程,改进模型,缓解模型退化问题,提高攻击者概念漂移攻击的难度。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
空间数据流的概念漂移问题研究
基于特征发现的数据流概念漂移问题研究
基于概念漂移的前景分割与运动分析
面向关联关系数据的概念学习方法研究