Research on the classification of data with imbalanced class distribution is critical in data mining and machine learning. Two observations account for this point: (1) the class imbalance problem is pervasive in a large number of domains of great importance in data mining community. (2) most popular classification learning systems are reported to be inadequate when encountering the class imbalance problem. For solving the problems of low recognition rate in the small class, poor generalization ability, and high hardware implementation cost existed in a traditional evolvable hardware classification system, a multiple evolvable hardware classifiers ensemble learning method is proposed for the classification of imbalanced data. The contents of this research project include: 1) Designing a feature selection scheme for the classification of imbalanced data, and investigating an optimal combination of positive and negative features. 2) Finding a imbalanced data resampling algorithm from the data level. 3) Combing the data resampling scheme with the multiple evolvable hardware classifiers ensemble learning. 4) Designing a selective ensemble learning algorithm of evolvable hardware classifiers. 5) Building a evolvable hardware classification system and its FPGA implementation. This research project may help to improve the data throughput capacity and classification accuracy of the evolvable hardware classification system in the application fields of information retrieval, automatic text categorization and DNA microarray-based disease diagnosis etc., conquer the challenge of the high feature dimension mass imbalance data processing and classification, and establish the theoretical basis for the development of practical high-speed imbalanced data classification system.
不平衡数据分类问题是数据挖掘与机器学习领域的研究热点。在数据挖掘应用中,不平衡数据分类问题广泛存在,而大多传统的分类学习方法都不适用于不平衡数据分类。针对演化硬件识别方法在不平衡数据分类中存在的少类识别率低、泛化能力弱、硬件实现代价大等问题,本课题拟以针对不平衡数据分类的演化硬件集成学习方法为研究对象,主要研究内容包括:1)设计面向不平衡数据分类的特征选择方法,研究正负特征的优化组合;2)构建数据层面的不平衡样本抽样算法;3)研究结合样本抽样的演化硬件多分类器集成学习方法;4)探索演化硬件分类器选择性集成学习方法,5)完成演化硬件分类算法模型及其在FPGA上的实现。本课题的研究有助于提高演化硬件识别系统在信息检索、文本自动分类、基于DNA微阵列数据的疾病诊断等应用中的数据处理能力与识别性能,实现对高特征维度海量不平衡数据的有效分类与处理,为研制出实用的高速不平衡数据分类系统奠定理论基础。
不平衡数据分类问题是数据挖掘与机器学习领域的研究热点。在数据挖掘应用中,不平衡数据分类问题广泛存在,而大多传统的分类学习方法都不适用于不平衡数据分类。针对演化硬件识别方法在不平衡数据分类中存在的少类识别率低、泛化能力弱、硬件实现代价大等问题,本课题以针对不平衡数据分类的演化硬件集成学习方法为研究对象,完成的主要研究内容包括:1)构建了数据层面的不平衡样本抽样算法,提出了一种基于结合特征Bagging和TSMOTE的样本抽样方法;2)研究了结合样本抽样的演化硬件多分类器选择性集成学习方法,提出了一种代价敏感超网络集成学习方法和一种基于Bagging的演化硬件选择性集成学习方法;3)完成了演化硬件分类算法模型及其在FPGA上的实现,提出了一种基于虚拟可重构结构的演化硬件模型和一种基于多核虚拟可重构结构的FPGA内部演化硬件架构;4)在演化超网络领域提出了一种结合最优类别信息离散的细粒度超网络模型和一种多标签演化超网络模型,并在DNA微阵列数据挖掘、道路标志识别、中文文本分类应用中取得了良好的效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
面向不平衡分类任务的主动学习方法研究
基于集成学习的不平衡流数据分类问题研究
面向高光谱数据分类的深度学习方法研究
面向大数据的渐进式集成学习方法与分布式算法研究