基于规则化Boosting算法和度量元选取技术的软件缺陷倾向预测模型

基本信息
批准号:61300069
项目类别:青年科学基金项目
资助金额:23.00
负责人:王世海
学科分类:
依托单位:北京航空航天大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:刘斌,杨顺昆,凌冬怡,黄抚群,王晔,张汇楠
关键词:
非平衡数据规则化Boosting软件度量元选取模式识别软件缺陷倾向预测
结项摘要

Software fault-proneness prediction is an effective approach to make a significent improvement on the qulity of software systems. Patter recogniton methods have revealed a strong modeling ability, and have been applying to software fault-proneness prediction task. BUT how to employ parttern recognition is still an open question, due to the characters of software fault data, imbalance data distribution and information redundancy. Currently,in pattern recognition area, Imbalance data learning is still an open challenge left. Several approaches have been proposed or extended to this with synthetic oversampling technique(SOTE). But, to our best knowledge, none of them take the issue of the synthetic samples with the unserness of labelling (class information) into account. There are many metrics of software have been proposed, in which there is redundant information (noises) for software fault-proneness prediction. In our project we will propose a novel Boosting cost function with introducing prior-knowledges,and building a regularized Boosting algorithm for imbalance data learning, which treats the orignal data and synthetic data separately and also has the feature selection ability. Finally the performance of model will be improved dramaticly in imbalance data learning tasks. Base on the research in this project, finally, we employ the new imbalacne data learning Boosting technique combining feature selection ability to build the software fault-proneness prediction model with the significent improvment on performance.

作为保证软件质量的重要手段之一,软件缺陷倾向预测模型的构建方法已成为研究者们关注的热点。具有很强模型构建能力的模式识别技术在于软件缺陷倾向预测领域已得到了一定的应用,但受限于软件缺陷数据固有的数据分布不平衡和输入信息(度量元)冗余的特点,现有的基于模式识别的软件缺陷倾向预测模型的性能受到很大制约。传统的非平衡数据学习算法,通过简单地人工样本添加方法进行样本扩充,对扩充样本带来的不确定类标注信息未加处理,并且不具备剔除冗余信息的能力。本项目对Boosting算法的损失函数进行理论研究,通过加入先验信息,对人工样本进行规则化学习,提出适合非平衡数据的损失函数,构造新的Boosting算法,使其能对人工扩充后的非平衡数据进行规则化学习和特征提取,最大程度上挖掘数据所含信息,提高模型精度。最终构建具有度量元选取和针对非平衡数据学习能力的性能优越的软件缺陷倾向预测模型。

项目摘要

软件缺陷数据具有极不平衡的分布特性造成了非平衡数据学习问题,给模式识别技术在软件缺陷预测上的应用带来了较大的挑战,项目组深入分析软件度量及缺陷数据,针对软件缺陷数据不平衡问题采取现有的方法SMOTE添加人工样本,总结软件缺陷不平衡数据的数据特性,分析人工样本的不确定性,提出衡量人工样本可信度的方法。针对人工样本的不确定性问题,使模型能够有区别地学习原始样本和人工样本,提出三种人工样本的权重更新方法,第一种方法是修改原AdaBoost算法的损失函数,构造损失函数规则项,并用梯度下降的方法推演了对新的损失函数进行优化的过程,以此来确定具体的算法步骤。第二种方法是将真实样本的权重更新与人工样本的权重更新过程分开,真实样本仍按原来的更新方法进行更新,而人工样本则根据距离其最近的真实少数类的权重和自身的可信度来确定。第三种方法是借鉴了EM算法,把最终的分类模型和数据可信度作为需要学习和优化的目标,在学习的过程中同时对分类模型和样本可信度进行学习,构建一个动态可信度优化模型。最后对算法进行编码实现并在实验平台上同其他算法进行了比较,验证了其有效性,数据结果显示出模型提高了少数类的精度,同时没有造成多数类精度较大程度地下降。针对软件缺陷数据应用过多的度量元影响模型可用性,不相关或者多余的特征导致模型性能的下降问题,研究Boosting特征提取技术,提出基于AdaBoost的特征选取技术,将每个特征定义为一个弱分类器,每轮筛选出一个分类误差最小的弱分类器作为输出,解决不相关特征对软件缺陷倾向预测模型的干扰,提高预测的准确率。这些研究内容及成果为针对非平衡数据学习问题的模式识别算法带来新的理论与技术思路,特征选取技术的应用为揭示软件内部属性与软件所含缺陷风险之间的关系提供了依据,这些还可以为对模式识别技术在其它非平衡数据领域,如医疗诊断,提供通用的理论算法,奠定技术基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019

王世海的其他基金

相似国自然基金

1

软件缺陷预测的度量元有效性及建模算法研究

批准号:61602534
批准年份:2016
负责人:杨晓杏
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
2

基于软件缺陷预测的软件可信性度量方法研究

批准号:90718024
批准年份:2007
负责人:宋擒豹
学科分类:F0203
资助金额:50.00
项目类别:重大研究计划
3

软件缺陷和失效的预测技术研究

批准号:90718022
批准年份:2007
负责人:李春平
学科分类:F0203
资助金额:50.00
项目类别:重大研究计划
4

基于先验信息的Boosting算法研究

批准号:11201316
批准年份:2012
负责人:宋捷
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目