面向不平衡数据的学习算法及应用研究

基本信息
批准号:61070061
项目类别:面上项目
资助金额:32.00
负责人:蒋盛益
学科分类:
依托单位:广东外语外贸大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:杨强,张倩生,余雯,王连喜,郑琪,庞观松
关键词:
垃圾邮件识别不平衡数据分类不平衡数据聚类特征选择混合特征相关性度量
结项摘要

数据分布不平衡现象广泛存在于现实世界中,传统学习方法在不平衡数据集上效果不理想,针对不平衡数据学习的研究成果还不多见。本项目主要进行以下几方面的研究:(1)研究连续特征与离散特征的相关性度量方法,进而研究基于相关性的特征选择方法;(2)针对不平衡数据的特性,研究样本记录加权及特征加权策略,并将之应用于特征选择、聚类和分类算法;(3)针对不平衡数据的特点,从不同角度研究平衡数据分布的策略和分层抽样方法,设计针对不平衡数据的有效聚类和分类方法;(4)研究代价函数构造策略,研究针对不平衡数据的代价敏感分类算法;(5)将聚类与分类有机结合,研究混合分类算法;(6)结合领域特征,将不平衡数据学习方法用于解决垃圾邮件识别、入侵检测、文本分类和欺诈检测等领域的问题。研究针对不平衡数据的学习算法,具有重要的学术价值和广阔的应用前景,将丰富不平衡数据挖掘的研究内容,并推动不平衡数据学习算法在相关领域的应用。

项目摘要

数据分布不平衡现象广泛存在于现实世界中,传统学习方法在不平衡数据集上效果不理想,不平衡数据的学习算法研究具有很高的实用价值。本项目针对不平衡数据的特点,重点从特征选择、聚类分析、分类分析等三个方面研究并设计了适用于不平衡数据的算法。研究了高效的特征选择算法,以聚类分析为基本工具,研究混合特征之间的相关性度量方法,设计了一种有效的无监督特征选择方法;同时,根据数据类别信息对特征进行加权的策略,设计了针对不平衡数据的特征选择方法。研究了高效的聚类和抽样方法,以一趟聚类作为预处理步骤,结合其它高准确度的聚类算法,设计了针对混合属性数据的聚类算法;同时,针对不平衡数据集类别分布严重倾斜的特性,提出了一种基于迭代的特征加权聚类算法;另外,根据簇的密度和数据的倾斜程度等因素对每个簇进行抽样,提出了基于一趟聚类的不平衡数据下抽样算法。研究了面向不平衡数据的分类算法,将数据分布的不平衡程度作为代价函数构造的重要因素,提出了基于代价敏感的朴素贝叶斯不平衡数据分类;同时,提出了一种增加特征的方法来提高不平衡分类的性能。结合领域特征,将不平衡数据学习方法用于解决垃圾邮件识别、文本分类、社区关键用户的发现等领域,为相关领域提供了具有应用价值的问题解决方案。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

蒋盛益的其他基金

批准号:60673191
批准年份:2006
资助金额:24.00
项目类别:面上项目
批准号:61572145
批准年份:2015
资助金额:65.00
项目类别:面上项目

相似国自然基金

1

高维不平衡数据的集成学习算法研究

批准号:11526161
批准年份:2015
负责人:殷清燕
学科分类:A0602
资助金额:3.00
项目类别:数学天元基金项目
2

面向高维小样本数据的流形学习算法及应用研究

批准号:60805001
批准年份:2008
负责人:郑忠龙
学科分类:F0605
资助金额:19.00
项目类别:青年科学基金项目
3

面向不平衡数据分类的演化硬件集成学习方法研究

批准号:61203308
批准年份:2012
负责人:王进
学科分类:F0601
资助金额:24.00
项目类别:青年科学基金项目
4

面向高维复杂数据的流形学习算法与应用研究

批准号:61806211
批准年份:2018
负责人:杜春
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目