The proposal develops some creative theories and algorithms for imbalanced data under the multi-view learning framework. The characteristic of imbalanced data mainly reflects the data distribution imbalance between classes, which would cause an offset of the decision boundary and a classification loss. Differently from the existing methods for imbalanced data, this proposal constructs the multiviewization theory for imbalanced data so as to make up the classification loss. Based on the constructed multiviewization theory, this proposal designs some novel methods from three aspects including the samples, the algorithm architecture, and the classification strategy. Firstly, this proposal designs different multi-view classification models for imbalanced samples in terms of the entropy information, one-sided dynamic under-sampling, Universum over-sampling, and feature-clustering interpolation, respectively. Secondly, this proposal respectively adopts the gravitational fixed radius nearest neighbor strategy and the boundary-eliminated pseudo-inverse linear discriminant idea into the algorithm architectures, and thus develops new multi-view classification models for imbalanced data. Finally, independently of special algorithms, this proposal utilizes the Bagging technique for both the samples and features generated by the Fisher kernel. Doing so can give a new ensemble learning conception to improve both the effectiveness and efficiency for classifying imbalanced data in practice. This proposal aims to overcome the limitations of the existing learning mechanism for imbalanced data, providing a novel and effective design concept for learning theories and algorithms.
本项目是在对不平衡数据多视角化框架下展开的创新性理论构造与方法设计。不平衡数据体现在类间数据分布的不平衡,而这种不平衡性会导致判别边界偏移等问题。不同于现有相关方法,本项目构建针对数据不平衡的视角化理论,通过对其多视角化以弥补数据不平衡导致的分类缺憾。本项目基于所构建的视角化理论,从样本、算法构造与分类策略三个层面设计针对不平衡数据的新方法。首先,在不平衡数据样本层面上,设计基于熵、单边动态下采样、Universum上采样与数据特征插值的多视角分类模型。其次,在算法构造层面上,设计分别基于万有引力近邻策略与边界伪逆法下的针对不平衡数据的多视角分类模型。最后,在分类策略层面上,设计出独立于算法、基于Fisher核下的特征与样本双重Bagging的新集成学习方法,提升所设计的新算法在实践中对不平衡数据的学习效率。本项目力图突破现有不平衡数据处理机制的局限,为其学习理论与算法提供新的设计理念。
不平衡数据问题是当前机器学习的一个研究热点,其在实际生产生活中广泛存在。不平衡数据的特点是类间数据分布呈现不平衡性,而这种数据的不平衡性会导致判别边界的偏移问题。但常规机器学习方法在处理不平衡数据时未能有效地解决判别边界偏移问题。不同于现有学习方法,本项目开展了如下研究:分别从样本、算法构造与分类策略等方面进行的研究。内容涉及建模、算法设计和实现、相关的理论分析与实验对比等研究。并取得如下主要成果:.1.在不平衡数据样本层面,提出全局多平衡子集协作学习方法GMBSCL,提出基于几何结构集成的不平衡问题分类方法GSE;提出一种基于双子空间和置信扰动的级联插值学习集成框架CILDC;提出一种基于熵的轻量化支持向量描述算法IESRSVDD;提出基于Universum样本的矩阵型分类器算法UMatMHKS;提出基于熵的模糊支持向量机EFSVM。.2.在算法构造层面,提出基于边界消解的伪逆线性判别分析模型BEPILD;提出一种基于OR与动态平均半径DRM的心衰死亡率预测系统;提出一种基于熵和引力的动态半径最近邻算法EGDRNN;提出基于边界强化的多随机经验核学习MREKL-MR;提出一种针对语音情感不平衡数据的基于熵的边界消解伪逆线性判别分析方法EBEPILD;提出一种带有实例加权和边界拟合的多部分经验核学习的算法IBMPEK。.3.在分类策略层面,提出两种基于正则化Fisher线性判别(FLD)的新型分类模型RFLD-S1和RFLD-S2;提出两种基于近邻计数的算法来选择数据在不平衡或平衡情况下的关键实例;提出基于熵和置信度的欠采样增强框架ECUBoost;提出一种基于费舍尔核与双重采样的不平衡分类方法MLFKBB;提出一种基于树的空间划分与合并集成学习框架SPT。.4.最后,考虑到样本先验信息,该项目对原始内容进行拓展,设计了一系列融合样本先验信息的分类模型;如提出一种协同几何多核学习算法CGMKL;提出一种基于边界投影判别的矩阵型样本分类方法BPDMatMHKS;提出一种基于特征重排的深度学习系统用于心衰死亡率预测等。.上述成果主要以学术论文与发明专利形式呈现,基于此项目已录用发表SCI(E)期刊论文34篇,中文核心期刊论文5篇,EI会议论文1篇,上述成果被谷歌学术统计引用234次;授权国家发明专利2项,公开国家发明专利16项;培养毕业硕/博士生13人。
{{i.achievement_title}}
数据更新时间:2023-05-31
路基土水分传感器室内标定方法与影响因素分析
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验
面向不平衡数据分类的演化硬件集成学习方法研究
低纬度磁异常变倾角化极理论与方法技术研究
前视红外目标智能跟踪理论与方法研究
面向视情维修的多变元网络数据可视化方法