Cost sensitivity and class imbalance often co-occur in real world applications, influencing the generalization ability of the machine learning algorithms. Existing Sparse learning and Distance Metric learning approaches try to minimize the objective function of error rate, neglecting the influence of the cost sensitivity and class imbalance. To address the influence of the cost sensitivity and class imbalance, this project proposes several improved machine learning algorithms. First, to enhance the generalization ability, cost sensitive Sparse learning algorithms are proposed, by considering the regular influence of Class imbalance. Second, robust Feature extractors are conducted for class imbalance and cost sensitive versions of traditional feature extractors are proposed, by analyzing the influence of class imbalance. Based on these results, a general framework of feature extraction is built to address the cost sensitivity and class imbalance simultaneously. Third, Distance metric learning methods which can fully utilize the information of imbalance cost sensitivity and class distribution are conducted, and Batch and adaptive sampling based stochastic gradient descent techniques are developed for solving large-scale problems. Last, a general framework is built to address co-occurred cost sensitivity and class imbalance is built, robust computational algorithms of high generalization ability are proposed, and these results are readily extended to semi-supervised circumstances.
在真实世界的机器学习任务中,代价敏感和类别不平衡问题往往并存,对学习算法的性能造成影响。传统的稀疏学习与距离度量学习以最小化分类错误率为目标函数,未考虑类不平衡和代价敏感的影响。本项目将围绕该问题进行研究,提出相应的机器学习技术:(1)提出代价敏感的稀疏分类方法,并综合类别不平衡对稀疏分类方法的影响,提升稀疏方法的泛化能力。(2)分析类别不平衡对稀疏特征提取方法的影响规律,研究针对类别不平衡问题的鲁棒特征提取子,提出经典的特征提取子的代价敏感版本;在此基础上,建立面向类别不平衡和代价敏感问题共存的通用特征提取框架。(3) 研究可以充分利用非均衡的错分代价与类别分布信息的距离度量学习算法,并发展求解大规模问题的结合块化和自适应采样策略的随机梯度优化技术。基于上述内容,建立适应类别不平衡和代价敏感共存的学习框架,提出具有强泛化能力的鲁棒的计算学习算法,并尝试把该框架推广至半监督学习领域。
距离度量学习是学习数据间的距离和相似度的关键,对于分类、聚类、识别等机器学习与模式识别的基本任务都是基于数据上的距离度量展开的,现有的稀疏学习方法较少考虑到传统的机器学习技术中视错误代价相同的方法带来的损失,代价敏感的稀疏学习通过降低总体代价而非简单的减少错误次数,考虑到了不同的错误往往会带来显著不同的损失,在众多应用领域都有重要意义。本项目已经针对上述问题展开研究,寻找了融合代价敏感的稀疏学习和距离度量学习的新方法,完成的主要研究内容及成果有: .1、将稀疏表示分类算法和级联学习相结合并应用于近红外光谱药品分类中,取得了预期效果。 提出一种级联的稀疏分类药品鉴别方法,通过利用稀疏表示系数向量进行样本错分的概率估计,相应的错分概率与代价矩阵相乘得到相应的错分损失,并利用错分最小化得到样本标签。与现有的SVM、CS4VM以及SRC进行比较,该算法都得到了很好的效果。.2、提出了基于概率估计的代价敏感协同表示分类算法,并将其应用于解决类别不平衡问题。与传统方法不同的是,先计算先验概率得到错分代价,再将其最小化以预测检测样本的类别标签。定义高斯函数为协同表示系数向量的概率分布,并通过对数运算将 概率分布转至协同表示框架。实验在高精度下实现了低代价损失,同时验证了算法的鲁棒性。.3、提出一种稀疏降噪自编码结合高斯过程的近红外光谱药品鉴别方法。首先对近红外光谱数据进行小波变换以消除基线漂移,然后用稀疏降噪自编码网络提取光谱特征并 降维表示,最后采用高斯过程进行二分类,其中高斯过程选用光谱混合核函数作为协方差函数。此网络通过稀疏降噪自编码学习得到维数更低但更有价值的特征来表示输入数据,同时将具有很好表达力的光谱混合核作为高斯过程的协方差函数,有利于更准确的光谱数据分类。此方法无论从分类准确率还是分类结果稳定性方面,都优于其他分类器 。.4、结合最小距离分类器对乳腺癌病理学图像分类的研究,提出了一种改进的深度卷积神经网络模型,这一方法的提出,解决了类间方差小、类内方差大而复杂,以及从相似的组织病理学图像中提取的不同放大倍数的特征差异较大这些问题。.5、基于距离度量学习和多尺度残差神经网络的医学图像分类,研究期间我们将距离度量学习及特征提取中的关键技术与医学图像处理结合,提出多尺度残差神经网络。采用不同大小的卷积核对图像进行多尺度信息采集,并对神经网络进行残差学习,避免网络退化。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
敏感性水利工程社会稳定风险演化SD模型
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
空气电晕放电发展过程的特征发射光谱分析与放电识别
矩阵对齐的耦合距离度量学习方法研究
面向图像识别的半监督距离度量学习方法研究
代价敏感的主动学习研究
代价敏感学习的粗糙集方法