基于深度学习与计算语言学的恶意代码作者身份识别研究

基本信息
批准号:61802433
项目类别:青年科学基金项目
资助金额:16.00
负责人:岳峰
学科分类:
依托单位:中国人民解放军战略支援部队信息工程大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:庞建民,李男,傅立国,梁光辉,谭捷
关键词:
计算语言学代码风格特征深度学习恶意代码作者身份识别
结项摘要

The author attribution of malicious code, especially the advanced persistent threat code, can play an important role in judging the responsibility of attack event and restoring the attack scene, and so on. At present, the automatic analysis and detection of malicious code has become mature. However, the author attribution mainly depends on manual analysis, which is inefficient. The challenge of automatic identification is that most of the features of malicious code reflect function, structure information, which can not reflect the relationship with author; Malicious code always use advanced writing or hiding techniques, feature extraction is more complex; And the sample sets for specific organizations or author are smaller, it is impossible to use machine learning to carry out large-scale training. The subject intends to carry out malicious code authorship attribution based on deep machine learning and computational linguistics. which inspired from the methods of author attribution in natural language texts in computational linguistics. Firstly, we analyze and extract the characteristics of malicious code style which reflect the characteristics of code authors, to describe the author from the perspective of style, and formalize the identity attribute information of the author. Then we use the method of deep learning to train the processed features, modeling the authors , and finally apply the model to identify unknown malicious code authors. Then study the clustering of malicious code for the same author, form a portrayal of the evolution of the author's work.

对恶意代码特别是高级可持续攻击代码进行作者身份识别能够对攻击事件责任判定、攻击场景还原等工作产生重要作用。目前恶意代码的自动化分析与检测虽已趋于成熟,但作者身份的识别主要依赖人工分析,效率低下。自动化的身份识别挑战在于:恶意代码的特征大多反映功能、结构的信息,反映与作者关系的特征较少;采用高级的编写或隐藏技术,特征的提取更加复杂;针对特定组织的样本集较小,无法使用机器学习开展大规模训练。课题拟开展基于深度机器学习和计算语言学的恶意代码作者身份识别,借鉴计算语言学中自然语言文本作者身份识别的方法,首先分析和提取反映代码作者特点的恶意代码风格特征,从风格的角度抽象刻画作者,并对作者身份属性信息进行形式化描述;然后研究采用深度学习的方法对处理后的特征进行训练,完成作者的建模,并最终用于未知恶意代码作者的识别;之后研究针对同一作者的恶意代码的聚类,形成对作者作品演变的刻画。

项目摘要

本项目针对基于深度机器学习的恶意代码分类和作者身份识别开展相关工作,在理论研究的同时,通过实验验证了相关方法的有效性。项目研究主要包含恶意代码的多层次特征获取、恶意代码测试基准集的建立,以及深度学习模型的设计与调优。项目执行3年期间,已经完成项目计划中的上述研究任务,取得一系列的研究进展,具体包括:1)在恶意代码特征获取方面,采用静态和动态结合的方式,在文件格式、字节、指令、基本块、控制流图、函数等多个层次进行了特征提取,提出了基于代码进化的恶意代码沙箱规避检测技术,实现了对可执行文件信息的全面自动化获取。2)提出了恶意软件基准测试集生成方法,通过特征聚类和遗传抽样及测试集合的信息熵计算,解决不同的恶意代码分类模型间的能力比较问题,有效规避代码检测过程中的不确定性,提高恶意代码分类过程的效率和准确度。3)设计了一种在效率和时间消耗上都优于传统注意机制的可扩展的注意力机制网络模型,在可扩展注意层中有多个子层,用于产生多维注意向量,而每个子层包含多个神经元。可扩展注意层中各子层神经元均可进行激活操作。模型在标准测试集上取得了较好的分类性能,有效扩展了利用深度学习对恶意代码检测和分类的相关研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019

相似国自然基金

1

Web文本的作者身份和属性识别方法研究

批准号:61672098
批准年份:2016
负责人:张春霞
学科分类:F0607
资助金额:16.00
项目类别:面上项目
2

基于深度学习的步态识别研究

批准号:61906074
批准年份:2019
负责人:陈欣
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
3

基于深度学习的跨平台虚拟身份行为语义建模及其应用研究

批准号:61602281
批准年份:2016
负责人:韩晓晖
学科分类:F0205
资助金额:20.00
项目类别:青年科学基金项目
4

基于极限学习单元的多生物特征图像深度学习建模与识别研究

批准号:61502338
批准年份:2015
负责人:杨巨成
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目