数据分布不平衡现象广泛存在于现实世界中,传统学习方法在不平衡数据集上效果不理想,针对不平衡数据学习的研究成果还不多见。本项目主要进行以下几方面的研究:(1)研究连续特征与离散特征的相关性度量方法,进而研究基于相关性的特征选择方法;(2)针对不平衡数据的特性,研究样本记录加权及特征加权策略,并将之应用于特征选择、聚类和分类算法;(3)针对不平衡数据的特点,从不同角度研究平衡数据分布的策略和分层抽样方法,设计针对不平衡数据的有效聚类和分类方法;(4)研究代价函数构造策略,研究针对不平衡数据的代价敏感分类算法;(5)将聚类与分类有机结合,研究混合分类算法;(6)结合领域特征,将不平衡数据学习方法用于解决垃圾邮件识别、入侵检测、文本分类和欺诈检测等领域的问题。研究针对不平衡数据的学习算法,具有重要的学术价值和广阔的应用前景,将丰富不平衡数据挖掘的研究内容,并推动不平衡数据学习算法在相关领域的应用。
数据分布不平衡现象广泛存在于现实世界中,传统学习方法在不平衡数据集上效果不理想,不平衡数据的学习算法研究具有很高的实用价值。本项目针对不平衡数据的特点,重点从特征选择、聚类分析、分类分析等三个方面研究并设计了适用于不平衡数据的算法。研究了高效的特征选择算法,以聚类分析为基本工具,研究混合特征之间的相关性度量方法,设计了一种有效的无监督特征选择方法;同时,根据数据类别信息对特征进行加权的策略,设计了针对不平衡数据的特征选择方法。研究了高效的聚类和抽样方法,以一趟聚类作为预处理步骤,结合其它高准确度的聚类算法,设计了针对混合属性数据的聚类算法;同时,针对不平衡数据集类别分布严重倾斜的特性,提出了一种基于迭代的特征加权聚类算法;另外,根据簇的密度和数据的倾斜程度等因素对每个簇进行抽样,提出了基于一趟聚类的不平衡数据下抽样算法。研究了面向不平衡数据的分类算法,将数据分布的不平衡程度作为代价函数构造的重要因素,提出了基于代价敏感的朴素贝叶斯不平衡数据分类;同时,提出了一种增加特征的方法来提高不平衡分类的性能。结合领域特征,将不平衡数据学习方法用于解决垃圾邮件识别、文本分类、社区关键用户的发现等领域,为相关领域提供了具有应用价值的问题解决方案。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于SSVEP 直接脑控机器人方向和速度研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
高维不平衡数据的集成学习算法研究
面向高维小样本数据的流形学习算法及应用研究
面向不平衡数据分类的演化硬件集成学习方法研究
面向高维复杂数据的流形学习算法与应用研究