众测环境下测试报告的智能筛选方法研究

基本信息
批准号:61602450
项目类别:青年科学基金项目
资助金额:20.00
负责人:王俊杰
学科分类:
依托单位:中国科学院软件研究所
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:胡军,崔强,谢淼,张宇光,刘庆庆
关键词:
众测环境测试报告筛选缺陷发现规律
结项摘要

Crowdsourced testing, a newly emerging testing technique in Web 2.0, is attracting more and more software organizations to publish testing tasks and crowd workers to work on these tasks. Because of the non-professional of crowd workers and financial incentives, the submitted test reports are generally found to be of tremendous sizes, low quality and with many duplicates. To filter the noise and identify valuable information by manual is quite time-consuming, tedious and low-efficient. To effectively screen the test reports would be beneficial. This kind of data has such characteristics as large quantity, high noise, serious data drift, complex presentation, etc. Traditional text retrieval and matching methods for bug report classification cannot work well in this context. Therefore, this research aims at the screening of test reports in crowdsourced testing environment. Through empirically analyzing the bug finding patterns in the crowdsourced testing environment, we first study how to filter invalid test reports under the situation of data drift. We then study how to utilize semantic of report and context information to identify duplicate reports. Finally we study how to combine report’s value and managerial preferences to carry out the prioritization of reports. To the best of our knowledge, this is the first work on the screening of crowdsourced test reports. Related outcomes can help to understand the pattern of bug finding in this environment. The corresponding methods and tools will be validated in Baidu crowdsourced testing platform, which can further increase the productivity and improve the quality of products, help to solve the situation of information overload, and promote the integration of production, teaching and research.

众测作为Web2.0时代的新兴测试方法,能够利用大众的测试能力和测试资源,帮助发现软件缺陷。由于众测人员的非专业性和报酬驱动,导致产生的测试报告数量多、质量低、重复比例高,单纯依靠人工检查和筛选非常耗时,对测试报告进行自动筛选是至关重要的。该类数据具有数量大、噪声多、漂移现象严重、表示复杂等特点,传统以文本检索和匹配为基础的缺陷报告筛选方法不能很好的发挥作用。因此,本课题聚焦众测环境下测试报告的筛选问题。在经验研究众测环境下缺陷发现规律的基础上,首先研究针对数据漂移的测试报告过滤方法,然后研究基于文本语义和情境信息的重复报告识别方法,最后研究基于报告价值和管理者偏好的报告排序方法。本课题是首个众测环境下测试报告的筛选研究,相关成果有助于理解该环境下缺陷发现的规律,相应的方法和工具将在百度众测平台进行验证,能够切实提高众测模式下的工作效率和产品质量,帮助解决信息过载问题,促进产学研结合。

项目摘要

众测是依托新一代互联网技术衍生的全新测试服务业态,利用共享经济的特征,采用分布协作的方式组织测试,协同测试需求和资源,聚合形成规模效益。众测模式的开放性吸引了群体智能的汇聚和群智数据的产生,这些数据来自多主体、多维度、多阶段、噪声大、质量低、结构多样,难以直接提供众测服务的有效决策支持。.本项目系统研究了众测环境下测试报告的智能筛选方法,并对众测环境下的人员推荐和任务管理问题进行了初步研究。共发表计算机学会A/B/C类论文14篇,其中4篇第一作者的计算机学会A类会议/期刊论文,作为第一完成人申请发明专利3个,软件著作权1个。第一作者论文获ICSE 2019杰出论文奖,第二作者论文获QRS 2019最佳论文奖。.提出一种基于领域自适应的众测报告自动分类方法,通过深度学习模型把不同领域的关键词统一表达到共同的特征空间,然后基于这些高层特征建立分类器,将含有缺陷的众测报告进行自动分类。基于中国最大的众测平台之一的百度众测的25,564个报告进行实验,结果表明该方法平均F值为0.77、AUC为0.84,显著优于基线。.提出结合文本和截图信息的重复众测报告识别方法,首先从截图中抽取图片结构和图片颜色特征,从文本中抽取词频-反文档频率和词向量特征,基于这四类特征得到的相似性,采用层次化算法确定两个报告的重复性。实验结果recall@1为 0.44-0.79,recall@5为0.66-0.92,显著优于基线。.提出基于多目标优化的众测人员推荐方法,通过将众测人员建模为测试设备、能力、领域经验,进行目标度量和寻优,能够用最少的人发现最多的缺陷。提出完成感知的众测管理方法,通过增量采样技术处理动态到达的报告,基于捕获再捕获模型和自回归移动平均模型预测任务状态,并进行自动化任务关闭决策和半自动化任务关闭权衡分析,从而提升众测的成本效益。.本项目的相关成果能够提升众测模式下的工作效率,提高众测结果的可用性,帮忙解决信息过载问题,提升众测服务的效能和成本效益,促进众测平台的活跃和繁荣,激励众测模式更好的发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

湖北某地新生儿神经管畸形的病例对照研究

湖北某地新生儿神经管畸形的病例对照研究

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

王俊杰的其他基金

批准号:81601682
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:U1865103
批准年份:2018
资助金额:50.00
项目类别:联合基金项目
批准号:61631001
批准年份:2016
资助金额:270.00
项目类别:重点项目
批准号:81071834
批准年份:2010
资助金额:33.00
项目类别:面上项目
批准号:51872242
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:39900167
批准年份:1999
资助金额:14.00
项目类别:青年科学基金项目
批准号:81302269
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:31502214
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:59676047
批准年份:1996
资助金额:20.00
项目类别:面上项目
批准号:31560662
批准年份:2015
资助金额:39.00
项目类别:地区科学基金项目
批准号:10473014
批准年份:2004
资助金额:32.00
项目类别:面上项目
批准号:41601362
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:30572137
批准年份:2005
资助金额:8.00
项目类别:面上项目
批准号:U1831203
批准年份:2018
资助金额:255.00
项目类别:联合基金项目
批准号:51479012
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:31060323
批准年份:2010
资助金额:26.00
项目类别:地区科学基金项目

相似国自然基金

1

众包测试报告约简方法研究与应用

批准号:61902096
批准年份:2019
负责人:陈信
学科分类:F0203
资助金额:26.00
项目类别:青年科学基金项目
2

协作式众包测试报告分析与融合技术研究

批准号:61772014
批准年份:2017
负责人:刘嘉
学科分类:F0203
资助金额:51.00
项目类别:面上项目
3

云计算环境下智能决策方法研究

批准号:71071045
批准年份:2010
负责人:杨善林
学科分类:G0103
资助金额:30.00
项目类别:面上项目
4

群体测试环境下高影响力缺陷报告的智能筛选、分派与辅助修复方法研究

批准号:61902050
批准年份:2019
负责人:郭世凯
学科分类:F0203
资助金额:27.00
项目类别:青年科学基金项目