大规模数据挖掘中嵌入式数据归约的稀疏模型与算法研究

基本信息

批准号：61866010

项目类别：地区科学基金项目

资助金额：40.00

负责人：邵元海

学科分类：

依托单位：海南大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：卢媛,吴爽,张婷婷,黄凌伟,张军,陈文辉

关键词：

核化线性降维核线性判别分析支持向量机软间隔支持向量机hinge损失

结项摘要

How to effectively perform data reduction is a key issue for large-scale data mining. Embedded data reduction refers to data reduction while learning data mining tasks. It is a research hotspot for current data reduction. Support vector machine (SVM) is a typical representative of embedded data reduction. However, traditional support vector machines can only perform sample reduction, and cannot perform feature reduction. Furthermore, it is particularly important data to improve the performance of the data reduction for the large-scale. This project intends to further improve support vector machines and related embedded data reduction methods for large-scale embedded data reduction. The specific contents include: Study loss functions and regular terms with more sparse nature of both samples and features, and then propose the large-scale support vector machines that can perform sample reduction and feature reduction simultaneously; For least squares SVM and linear discriminant analysis, study the sparse models and algorithms for feature selection and feature extraction; study the sparse models that can simultaneously perform sample and feature reduction, focusing on the interpretability of sparse regularization and sparse loss functions, and fast algorithms of large-scale problems Finally, the above research is applied to the large-scale image information retrieval problem. The study of this project is of innovative significance to the theory and practice of embedded data reduction in large-scale data mining.

如何有效进行数据归约是大规模数据挖掘的一个关键问题。嵌入式数据归约是指在学习数据挖掘任务的同时进行数据归约，是当前数据归约的研究热点。支持向量机是嵌入式数据归约的典型代表，然而传统的支持向量机只能进行样本归约，不能进行特征归约，并且对大规模数据的归约性能也亟待提高。本项目拟进一步改进支持向量机及有关嵌入式数据归约方法，施行大规模嵌入式数据归约。具体内容包括：研究对样本和特征具有更加稀疏性质的损失项和正则项，进而提出即可进行样本规约、又可进行特征归约的大规模支持向量机；对最小二乘支持向量机和判别分析，构造稀疏的特征选择和特征提取模型与算法；研究可以同时进行样本和特征归约的稀疏模型，重点关注其稀疏正则化和稀疏损失函数的可解释性和大规模问题的快速求解算法；最后，将以上研究应用于大规模图像信息检索问题。本项目的研究对大规模数据挖掘中嵌入式数据归约的理论和实践都具有创新意义。

项目摘要

如何有效进行数据归约是大规模数据挖掘的一个关键问题。嵌入式数据归约是指在学习数据挖掘任务的同时进行数据归约，是当前数据归约的研究热点。本项目以支持向量机的同时样本归约和特征归约为研究切入点，研究对样本和特征具有更加稀疏性质的损失项和正则项，进而提出了即可进行样本规约、又可进行特征归约的大规模支持向量机；对最小二乘支持向量机和判别分析，构造稀疏的特征选择和特征提取模型与算法；研究了可以同时进行样本和特征归约的稀疏模型，特别是其稀疏正则化和稀疏损失函数的可解释性和大规模问题的快速求解算法；对设计的算法在实际问题进行了数值实验，选取优秀的算法并开发了性能优异的求解器。最后，将以上研究应用于大规模图像信息检索问题。.经过4年的研究，共发表了20篇与项目相关的研究论文,参加或参与组织国际国内学术会议10次，并做报告宣传项目研究成果。培养相关毕业研究生6名。其中，作为本项目的重要结果，给出了最小二乘支持向量机同时进行样本归约和特征归约的条件以及相应的模型与算法。给出了线性判别分析同时进行样本归约和特征归约的条件以及相应的模型与算法。建立了最具有稀疏性的L0/1损失支持向量机稀疏理论基础及大规模归约算法。这些稀疏算法与工作集算法和截断算法结合，从而使其适用于大规模数据挖掘中嵌入式数据归约。.总之，本项目的完成不仅为大规模数据挖掘中嵌入式数据归约提供新的稀疏模型和新算法，而且为学科交叉与融合提供了实践经验，对于人才培养以及嵌入式稀疏归约相关领域的深度合作与交流起到了积极推动作用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.13336/j.1003-6520.hve.20200528028

发表时间：2021

DOI：10.3788/CJL201946.0801003

发表时间：2019

邵元海的其他基金

批准号：11871183

批准年份：2018

资助金额：52.00

项目类别：面上项目

批准号：11201426

批准年份：2012

资助金额：22.00

项目类别：青年科学基金项目

批准号：11926349

批准年份：2019

资助金额：10.00

项目类别：数学天元基金项目

相似国自然基金

时间序列数据挖掘中的聚类模型与算法研究

批准号：70871015

批准年份：2008

负责人：郭崇慧

学科分类：G0112

资助金额：23.00

项目类别：面上项目

动态数据挖掘中的演化聚类模型与算法研究

批准号：71171030

批准年份：2011

负责人：郭崇慧

学科分类：G0112

资助金额：45.00

项目类别：面上项目

面向大规模高维复杂数据的稀疏最优化有监督学习模型与算法

批准号：61877061

批准年份：2018

负责人：张志旺

学科分类：F0610

资助金额：50.00

项目类别：面上项目

数据挖掘中的稀疏张量优化方法研究

批准号：11671228

批准年份：2016

负责人：王宜举

学科分类：A0405

资助金额：48.00

项目类别：面上项目

大规模数据挖掘中嵌入式数据归约的稀疏模型与算法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

一种基于多层设计空间缩减策略的近似高维优化方法

基于综合治理和水文模型的广西县域石漠化小流域区划研究

带有滑动摩擦摆支座的500 kV变压器地震响应

基于腔内级联变频的0.63μm波段多波长激光器

邵元海的其他基金

噪声数据的非凸损失函数支持向量机最优化模型与算法研究

基于非平行超平面支持向量机的最优化模型及算法研究

SVM不定核学习的低秩优化算法

相似国自然基金