Research on the classification of data with imbalanced class distribution is critical in data mining and machine learning. Two observations account for this point: (1) the class imbalance problem is pervasive in a large number of domains of great importance in data mining community. (2) most popular classification learning systems are reported to be inadequate when encountering the class imbalance problem. For solving the problems of low recognition rate in the small class, poor generalization ability, and high hardware implementation cost existed in a traditional evolvable hardware classification system, a multiple evolvable hardware classifiers ensemble learning method is proposed for the classification of imbalanced data. The contents of this research project include: 1) Designing a feature selection scheme for the classification of imbalanced data, and investigating an optimal combination of positive and negative features. 2) Finding a imbalanced data resampling algorithm from the data level. 3) Combing the data resampling scheme with the multiple evolvable hardware classifiers ensemble learning. 4) Designing a selective ensemble learning algorithm of evolvable hardware classifiers. 5) Building a evolvable hardware classification system and its FPGA implementation. This research project may help to improve the data throughput capacity and classification accuracy of the evolvable hardware classification system in the application fields of information retrieval, automatic text categorization and DNA microarray-based disease diagnosis etc., conquer the challenge of the high feature dimension mass imbalance data processing and classification, and establish the theoretical basis for the development of practical high-speed imbalanced data classification system.
不平衡数据分类问题是数据挖掘与机器学习领域的研究热点。在数据挖掘应用中,不平衡数据分类问题广泛存在,而大多传统的分类学习方法都不适用于不平衡数据分类。针对演化硬件识别方法在不平衡数据分类中存在的少类识别率低、泛化能力弱、硬件实现代价大等问题,本课题拟以针对不平衡数据分类的演化硬件集成学习方法为研究对象,主要研究内容包括:1)设计面向不平衡数据分类的特征选择方法,研究正负特征的优化组合;2)构建数据层面的不平衡样本抽样算法;3)研究结合样本抽样的演化硬件多分类器集成学习方法;4)探索演化硬件分类器选择性集成学习方法,5)完成演化硬件分类算法模型及其在FPGA上的实现。本课题的研究有助于提高演化硬件识别系统在信息检索、文本自动分类、基于DNA微阵列数据的疾病诊断等应用中的数据处理能力与识别性能,实现对高特征维度海量不平衡数据的有效分类与处理,为研制出实用的高速不平衡数据分类系统奠定理论基础。
不平衡数据分类问题是数据挖掘与机器学习领域的研究热点。在数据挖掘应用中,不平衡数据分类问题广泛存在,而大多传统的分类学习方法都不适用于不平衡数据分类。针对演化硬件识别方法在不平衡数据分类中存在的少类识别率低、泛化能力弱、硬件实现代价大等问题,本课题以针对不平衡数据分类的演化硬件集成学习方法为研究对象,完成的主要研究内容包括:1)构建了数据层面的不平衡样本抽样算法,提出了一种基于结合特征Bagging和TSMOTE的样本抽样方法;2)研究了结合样本抽样的演化硬件多分类器选择性集成学习方法,提出了一种代价敏感超网络集成学习方法和一种基于Bagging的演化硬件选择性集成学习方法;3)完成了演化硬件分类算法模型及其在FPGA上的实现,提出了一种基于虚拟可重构结构的演化硬件模型和一种基于多核虚拟可重构结构的FPGA内部演化硬件架构;4)在演化超网络领域提出了一种结合最优类别信息离散的细粒度超网络模型和一种多标签演化超网络模型,并在DNA微阵列数据挖掘、道路标志识别、中文文本分类应用中取得了良好的效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
新型树启发式搜索算法的机器人路径规划
智能煤矿建设路线与工程实践
现代优化理论与应用
基于自适应干扰估测器的协作机器人关节速度波动抑制方法
带球冠形脱空缺陷的钢管混凝土构件拉弯试验和承载力计算方法研究
面向不平衡分类任务的主动学习方法研究
基于集成学习的不平衡流数据分类问题研究
面向高光谱数据分类的深度学习方法研究
面向大数据的渐进式集成学习方法与分布式算法研究