面向大规模高维复杂数据的稀疏最优化有监督学习模型与算法

基本信息
批准号:61877061
项目类别:面上项目
资助金额:50.00
负责人:张志旺
学科分类:
依托单位:鲁东大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:岳峻,王静莲,刘通,藏睦君,刘莉,朱华,李备备,杨慧慧
关键词:
分类与回归核方法最优化正则化稀疏学习
结项摘要

In many real-world applications, the information redundancy, structural sparsity, large-scale and high dimensionality, and nonlinearity in big data are very common characteristics, however, when we employ the optimization-based classifier and regression methods to deal with the above data in practical problems, these methods often have the limitations of the lower computational efficiency and predictive accuracy, and the poor scalability and interpretability.. Thus, we will study the basic theory of integrating supervised learning methods with simultaneous instance and feature sparsifications so as to construct novel sparse optimization-based classifier and regression models and algorithms. This study involves the problem belonging to the fields of artificial intelligence and mathematics and it is an interdisciplinary issue in two fields. . This study mainly includes: i) kernel methods of multiple instances and multiple features; ii) sparse optimization-based classifier and regression models and algorithms; iii) least squares sparse optimization-based classifier and regression models and algorithms; iv) sparse multiple criteria multiple constraint mathematical programming classifier models and algorithms; . This study is a synergy among the optimization theory, massive data mining and knowledge discovery, and the basic methods of machine learning. It is hopeful to make breakthroughs in kernel methods of multiple instances and multiple features and multiple functional classifier and regression models, which can provide the novel theories and methods to effectively address the aforementioned problem that the current optimization-based machine learning methods are unable to directly apply to the analysis and processing of large-scale and high-dimensional data. Therefore, it is very important for the theoretically interdisciplinary research while it is prospective for many practical applications.

本项目针对现实大数据中存在信息冗余、结构稀疏、高维海量和非线性等特征,以及现有的最优化分类器和回归方法在处理这类数据时存在计算效率和预测准确率低,可伸缩性和可解释性较差等问题,开展融合实例和特征稀疏化与有监督学习方法的基本理论研究,进而构建新的稀疏最优化的分类器和回归模型和算法,研究涉及的问题属于人工智能和数学等领域,属于两个领域的交叉问题。主要研究内容包括:(1)多实例多特征核方法;(2)稀疏最优化的分类器和回归模型与算法;(3)最小二乘的稀疏最优化的分类器与回归模型和算法;(4)稀疏多目标多约束规划的分类器模型和算法。该研究融合了最优化理论、数据挖掘与知识发现和机器学习的基本方法,有望在多实例多特征核方法和集多种功能于一体的分类与回归模型方面取得突破,为解决现有的基于最优化的机器学习方法不能适应高维海量数据的问题提供新理论和方法。因此,既有重要的理论意义,又有较好的应用前景。

项目摘要

本项目针对大数据中存在冗余、结构稀疏、高维海量和非线性等特征,以及现有最优化分类器和回归方法在处理这类数据时存在预测准确率低和可解释性较差等问题,研究融合了稀疏化与有监督学习的理论和方法,构建了一系列稀疏最优化的分类器和回归预测方法。主要研究内容包括:(1)多实例多特征核函数计算方法;(2)稀疏最优化和多目标分类器(TSMOC)和回归(BSOR)方法;(3)稀疏最优化最小二乘分类器(AMLSC)与回归(BSOLSR)方法;(4)可解释的多稀疏多核非凸最优化分类器(EM2NOLC)方法;(5)面向高维低样本问题的分散投影间隔最大化分类器(MDPMC)方法。研究取得的重要成果包括:(1)定义了多实例多特征核函数,实现了高效算法;(2)构建了TSMOC和BSOR模型,实现了快速SMO求解算法;(3)构建了AMLSC与BSOLSR模型,实现了基于矩阵分解的最小二乘快速求解算法;(4)构建了EM2NOLC模型,并用ADMM实现了求解算法;(5)构建了MDPMC模型,并实现了快速SMO求解算法。通过在公开数据集上进行训练和验证,上述各类模型和算法在独立测试集上性能指标的关键数据表明:(1)与传统核函数计算方法相比,多实例多特征核函数更易于实现稀疏化学习和提升可解释性;(2)与5个分类器和6个回归最优化方法相比,TSMOC的预测准确率平均提升了12.56%,BSOR的预测均方误差平均降低了3.39%;(3)与6个最优化分类器和4个回归方法相比,AMLSC的预测准确率提升了5.56%,BSOLSR的预测均方误差平均降低了1.20%;(4)与5个ADMM最优化分类器相比,EM2NOLC的预测准确率平均提升了11.10%。除预测外上述各分类器和回归方法还能选择数量最少的重要实例和特征,具有较好的可解释性。(5)与7个高维低样本分类器方法相比,MDPMC的预测准确率平均提升了5.68%。该研究融合了最优化理论、数据挖掘和机器学习的基本方法,并在新的核方法和集多功能于一体的分类与回归模型和算法研究方面取得了突破,为解决现有最优化机器学习方法不能适应高维海量数据的问题提供了新理论和方法。因此,具有重要的理论意义和应用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020

张志旺的其他基金

相似国自然基金

1

面向高维复杂数据的流形学习算法与应用研究

批准号:61806211
批准年份:2018
负责人:杜春
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
2

面向高维数据的稀疏与鲁棒线性判别分析模型与算法研究

批准号:61703370
批准年份:2017
负责人:李春娜
学科分类:F0603
资助金额:20.00
项目类别:青年科学基金项目
3

面向高维大数据的半监督学习关键问题研究

批准号:61772373
批准年份:2017
负责人:樊明宇
学科分类:F0605
资助金额:61.00
项目类别:面上项目
4

面向高维数据的稀疏非参核学习方法研究

批准号:61403394
批准年份:2014
负责人:刘兵
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目