In many real-world applications, the information redundancy, structural sparsity, large-scale and high dimensionality, and nonlinearity in big data are very common characteristics, however, when we employ the optimization-based classifier and regression methods to deal with the above data in practical problems, these methods often have the limitations of the lower computational efficiency and predictive accuracy, and the poor scalability and interpretability.. Thus, we will study the basic theory of integrating supervised learning methods with simultaneous instance and feature sparsifications so as to construct novel sparse optimization-based classifier and regression models and algorithms. This study involves the problem belonging to the fields of artificial intelligence and mathematics and it is an interdisciplinary issue in two fields. . This study mainly includes: i) kernel methods of multiple instances and multiple features; ii) sparse optimization-based classifier and regression models and algorithms; iii) least squares sparse optimization-based classifier and regression models and algorithms; iv) sparse multiple criteria multiple constraint mathematical programming classifier models and algorithms; . This study is a synergy among the optimization theory, massive data mining and knowledge discovery, and the basic methods of machine learning. It is hopeful to make breakthroughs in kernel methods of multiple instances and multiple features and multiple functional classifier and regression models, which can provide the novel theories and methods to effectively address the aforementioned problem that the current optimization-based machine learning methods are unable to directly apply to the analysis and processing of large-scale and high-dimensional data. Therefore, it is very important for the theoretically interdisciplinary research while it is prospective for many practical applications.
本项目针对现实大数据中存在信息冗余、结构稀疏、高维海量和非线性等特征,以及现有的最优化分类器和回归方法在处理这类数据时存在计算效率和预测准确率低,可伸缩性和可解释性较差等问题,开展融合实例和特征稀疏化与有监督学习方法的基本理论研究,进而构建新的稀疏最优化的分类器和回归模型和算法,研究涉及的问题属于人工智能和数学等领域,属于两个领域的交叉问题。主要研究内容包括:(1)多实例多特征核方法;(2)稀疏最优化的分类器和回归模型与算法;(3)最小二乘的稀疏最优化的分类器与回归模型和算法;(4)稀疏多目标多约束规划的分类器模型和算法。该研究融合了最优化理论、数据挖掘与知识发现和机器学习的基本方法,有望在多实例多特征核方法和集多种功能于一体的分类与回归模型方面取得突破,为解决现有的基于最优化的机器学习方法不能适应高维海量数据的问题提供新理论和方法。因此,既有重要的理论意义,又有较好的应用前景。
本项目针对大数据中存在冗余、结构稀疏、高维海量和非线性等特征,以及现有最优化分类器和回归方法在处理这类数据时存在预测准确率低和可解释性较差等问题,研究融合了稀疏化与有监督学习的理论和方法,构建了一系列稀疏最优化的分类器和回归预测方法。主要研究内容包括:(1)多实例多特征核函数计算方法;(2)稀疏最优化和多目标分类器(TSMOC)和回归(BSOR)方法;(3)稀疏最优化最小二乘分类器(AMLSC)与回归(BSOLSR)方法;(4)可解释的多稀疏多核非凸最优化分类器(EM2NOLC)方法;(5)面向高维低样本问题的分散投影间隔最大化分类器(MDPMC)方法。研究取得的重要成果包括:(1)定义了多实例多特征核函数,实现了高效算法;(2)构建了TSMOC和BSOR模型,实现了快速SMO求解算法;(3)构建了AMLSC与BSOLSR模型,实现了基于矩阵分解的最小二乘快速求解算法;(4)构建了EM2NOLC模型,并用ADMM实现了求解算法;(5)构建了MDPMC模型,并实现了快速SMO求解算法。通过在公开数据集上进行训练和验证,上述各类模型和算法在独立测试集上性能指标的关键数据表明:(1)与传统核函数计算方法相比,多实例多特征核函数更易于实现稀疏化学习和提升可解释性;(2)与5个分类器和6个回归最优化方法相比,TSMOC的预测准确率平均提升了12.56%,BSOR的预测均方误差平均降低了3.39%;(3)与6个最优化分类器和4个回归方法相比,AMLSC的预测准确率提升了5.56%,BSOLSR的预测均方误差平均降低了1.20%;(4)与5个ADMM最优化分类器相比,EM2NOLC的预测准确率平均提升了11.10%。除预测外上述各分类器和回归方法还能选择数量最少的重要实例和特征,具有较好的可解释性。(5)与7个高维低样本分类器方法相比,MDPMC的预测准确率平均提升了5.68%。该研究融合了最优化理论、数据挖掘和机器学习的基本方法,并在新的核方法和集多功能于一体的分类与回归模型和算法研究方面取得了突破,为解决现有最优化机器学习方法不能适应高维海量数据的问题提供了新理论和方法。因此,具有重要的理论意义和应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
硬件木马:关键问题研究进展及新动向
基于LASSO-SVMR模型城市生活需水量的预测
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
面向高维复杂数据的流形学习算法与应用研究
面向高维数据的稀疏与鲁棒线性判别分析模型与算法研究
面向高维大数据的半监督学习关键问题研究
面向高维数据的稀疏非参核学习方法研究