Many real-world machine learning applications are characterized as imbalanced classification problems, where there are many more instances of some classes than others. For this kind of classification problems, the typical classifiers are prone to ignore the small classes, which lead to inferior performance on small classes. As an important approach to tackle class imbalanced problems, the resampling methods have been paid a lot of attention. However, the existing resampling methods always assign the "assumed" labels to new sampled data and do not have the robust approach for different types of data in real-world applications. To address these problems, this proposed project will investigate the class imbalanced problem from a semi-supervised learning perspective, which generates unlabelled synthetic data from minority classes and uses both labelled and unlabelled data to build better classifiers by multiple assumption based sampling approaches. The proposed project proposes to employ collaborative semi-supervised ensemble methods to address the imbalanced problems, which leads to better understanding of ensemble model and extended application domains of ensemble model. In addition, the proposed research will incorporate the theoretical research results to the real-world Bioinformatics problems.
多类别数据不平衡问题(即数据中的一类样本在数量上远多于另一类或几类)广泛存在于各种实际应用中。传统的学习算法容易对大类过分重视,进而导致分类器在小类别数据上精度很低。采样方法作为一种重要的平衡数据集的手段受到了研究者广泛的重视。本课题主要针对现有采样方法机制单一、缺少容错机制等问题,提出了一种基于多假设的采样方法,通过只采样数据而不指定数据类别的方式从半监督学习的角度来解决多类别不平衡这个特殊的监督学习问题;提出了一种基于协作型半监督集成学习的不平衡数据处理方法,加深了对集成学习模型的理解、扩展了其应用范围;并且将理论研究成果直接应用于实际的生物信息学问题。
本项目在执行期间对基于半监督集成学习的不平衡数据问题进行了深入的研究。对取得的重要进展和学术成绩详述如下:.1) 提出基于统计学习理论的快速概率分类矢量机,其中基于拉普拉斯近似和期望传播算法求解模型参数的最大后验概率;使用梯度下降法与贝叶斯证据最大算法优化模型的超参数;基于Rademacher复杂性的理论分析方法得到了其泛化性能界以及解释了模型的稀疏性与模型泛化能力之间的关系。.2)研究并提出基于回声状态网路的动态系统模拟模型;基于泛函分析的模型之间距离的定义;基于在线参数优化的模型空间在线学习;快速有效的分类时间序列数据。.3) 针对故障诊断问题提出利用模型空间的学习的方法进行故障检测。提出了模型空间的构建、表示与理论;模型空间上的学习算法及其在故障检测中的应用;如何在模型空间上进行在线学习,以达到实时检测故障的目的;如何建立故障类型库,以存储已知的故障类型,方便以后的故障诊断;针对实际问题开发相应的应用系统。.4) 针对化工过程引入了一种新的在模型空间中学习的框架来处理故障检测和故障隔离,通过比较正常数据与故障数据对应模型之间的差异来监测故障并将及存储归类。.5)对于序列分类,我们提出了一种新颖的模型和测度联合学习方法(MMCL)。MMCL使得来自同一类的序列可以被距离较近的模型来表示,而不同类的序列用距离较远的模型来表示。.6)最大平衡Biclique问题(Maximum Balanced Biclique Problem)是一个著名的NP难组合优化问题,针对该问题提出了一种新的基于概率模型和结构变异的演化算法。.7)探索了在支撑向量机(SVM)方法中建模松驰变量的思想,进一步地观察光滑模型的意义和影响,讨论了把原始的SVM松驰项和建模的松驰项相结合是否可能会提高分类性能.8)为克服大数据知识工程带来的挑战,提出了一种三层的数据工程框架,称为BigKE。BigKE从自治异质数据源中学习碎片化知识,目的是提供个性化的知识服务。..相关的论文发表在IEEE T. on Networks and Learning System,KDD,IJCAI,Computers & Chemical Engineering,Neural Computation,IEEE Intelligent Systems,IEEE T. on Cybernetics上。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
物联网中区块链技术的应用与挑战
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
基于混合优化方法的大口径主镜设计
数据流半监督分类中的半监督迁移学习研究
基于半监督学习和集成学习的文本分类方法研究
基于集成学习的不平衡流数据分类问题研究
基于半监督学习的聚类集成机理及高效算法研究