漏洞相关数据集中的知识发现及在漏洞检测中的应用

基本信息
批准号:U1836209
项目类别:联合基金项目
资助金额:248.00
负责人:梁彬
学科分类:
依托单位:中国人民大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:石文昌,黄建军,边攀,瞿靖东,霍玮,李丰,肖扬,李守鹏,王晓萌
关键词:
信息检索知识发现自然语言处理漏洞检测程序切片
结项摘要

So far, software vulnerability detection is still heavily dependent on the prior knowledge that we know about the target vulnerabilities. Leveraging data processing techniques to automatically discovering the knowledge from detection targets has been proven to be a promising approach to address the problem. However, there are still some challenges that hinder it to be practically adopted in detecting vulnerabilities, such as the interference of noise code, under-normalization, over-normalization, and limited knowledge patterns. This study aims to research effective solution to these urgent and important issues by introducing word embedding of natural language processing, information retrieval and program slicing techniques. Two detection methodologies will be investigated, i.e., looking up unknown vulnerabilities based on known ones (detecting unknown-known) and inferring coding specifications to find unknown vulnerabilities (detecting unknown-unknown). The effective techniques will be proposed to automatically discover or extract the detection knowledge (e.g., retrieval vector and coding specification) from the vulnerability-related datasets (e.g., known vulnerabilities, patches, and target system code). Unknown vulnerabilities will be detected via retrieving similar vulnerable implementation or identifying the violations to obtained specifications. Eventually, this study will implemented two detection proto-systems, which can be directly applied to detection the large-scale systems and provide available detection service.

当下,软件安全漏洞的检测仍然严重依赖于我们所具有的漏洞先验知识。利用数据处理技术来从检测对象中自动发现相关知识已经被证明是一种解决此问题的非常有希望的方法。但是,这种方法面临着噪声代码干扰、代码欠规范化/过规范化和所提取的知识形式受限等诸多挑战,阻碍着其真正被实际的安全漏洞检测工作所采用。本课题将针对以上亟待解决的问题,通过引入自然语言处理中的词嵌入、信息检索和程序切片等技术研究有效的解决办法。拟从根据已知漏洞查找未知漏洞(检测“未知的已知”)和基于编码规范自动提取来检测未知漏洞(检测“未知的未知”)等两个方面,探索有效的漏洞检测知识发现方法,从漏洞相关的数据集(历史漏洞、补丁和目标系统代码)中自动提取/发现漏洞检测知识(检索向量和编码规范),并利用这些知识来检测未知漏洞(相似度检索和违反实例查找)。最终,我们将研发出两个检测系统原型,能够直接用于大型系统的漏洞检测,提供实际的检测服务。

项目摘要

当下,传统的软件安全漏洞检测方法严重依赖于漏洞先验知识。利用数据科学技术来从检测对象中自动发现相关知识被证明是一种解决此问题的非常有希望的方法。但是,这种方法面临着效率和效能等诸多挑战,阻碍着其真正被实际的安全漏洞检测工作所采用。本项目针对此问题,从根据已知漏洞查找未知漏洞(检测“未知的已知”)和关键编码知识的自动提取来检测未知漏洞(检测“未知的未知”)等两个方面,探索有效的漏洞检测知识发现方法,从漏洞相关的数据集(历史漏洞、补丁和目标系统代码)中自动提取/发现漏洞检测知识(检索向量和编码规范等),并利用这些知识来检测未知漏洞(相似度检索或模式匹配)。..具体而言,本项目将“未知的已知”型漏洞的检测问题看作一个信息检索问题,通过在目标系统代码中检索匹配和已知漏洞相似的代码实现来发现未知漏洞。研究工作重点是探索面向漏洞检测的代码表示及匹配技术。我们主要采用了代码嵌入等技术来获得分布式代码表示并进行高效的匹配。对于“未知的未知”型漏洞,本项目将目标系统代码及相关文档当作一种特殊的数据,通过引入机器学习及自然语言处理技术,从中提取出检测漏洞所需的必要知识来有效支撑漏洞检测工作。研究工作的重点是不依靠先验知识或仅仅依靠非常有限的先验知识,从代码等数据中自动发现检测漏洞所需的编程规则、敏感函数等相关知识。所使用到的核心技术是词嵌入和数据挖掘等基于统计的机器学习方法。..基于以上研究,本项目形成了一系列的检测方法并实现了相关原型系统。利用这些方法,项目组从Linux、FreeBSD、Adobe Reader、PostgreSQL、OpenSSL、以太坊智能合约及系统固件等主流软件系统中成功发现了数百个余个已被确认的未知漏洞缺陷,达到了项目研究目标。..本项目所提出的研究方法缓解了漏洞检测先验知识的提取难题。这些方法有助于构建出新型的漏洞检测方法,并能有效增强提升已有的静态和动态漏洞检测方法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022
5

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020

梁彬的其他基金

批准号:60873213
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:81301835
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:11174139
批准年份:2011
资助金额:65.00
项目类别:面上项目
批准号:10804050
批准年份:2008
资助金额:24.00
项目类别:青年科学基金项目
批准号:11402253
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:60703102
批准年份:2007
资助金额:7.00
项目类别:青年科学基金项目
批准号:61170240
批准年份:2011
资助金额:56.00
项目类别:面上项目

相似国自然基金

1

基于漏洞数据集的漏洞特征库分析与预测方法研究

批准号:U1836211
批准年份:2018
负责人:陈恺
学科分类:F0205
资助金额:253.00
项目类别:联合基金项目
2

基于数据挖掘的安全漏洞静态检测方法研究

批准号:60873213
批准年份:2008
负责人:梁彬
学科分类:F0205
资助金额:30.00
项目类别:面上项目
3

多源漏洞数据智能分析和漏洞智能利用与挖掘研究

批准号:U1836210
批准年份:2018
负责人:张玉清
学科分类:F0205
资助金额:254.00
项目类别:联合基金项目
4

网络流量中基于数据控制流的漏洞利用程序检测方法研究

批准号:U1836116
批准年份:2018
负责人:陈锦富
学科分类:F0205
资助金额:66.00
项目类别:联合基金项目