大规模数据挖掘中嵌入式数据归约的稀疏模型与算法研究

基本信息
批准号:61866010
项目类别:地区科学基金项目
资助金额:40.00
负责人:邵元海
学科分类:
依托单位:海南大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:卢媛,吴爽,张婷婷,黄凌伟,张军,陈文辉
关键词:
核化线性降维核线性判别分析支持向量机软间隔支持向量机hinge损失
结项摘要

How to effectively perform data reduction is a key issue for large-scale data mining. Embedded data reduction refers to data reduction while learning data mining tasks. It is a research hotspot for current data reduction. Support vector machine (SVM) is a typical representative of embedded data reduction. However, traditional support vector machines can only perform sample reduction, and cannot perform feature reduction. Furthermore, it is particularly important data to improve the performance of the data reduction for the large-scale. This project intends to further improve support vector machines and related embedded data reduction methods for large-scale embedded data reduction. The specific contents include: Study loss functions and regular terms with more sparse nature of both samples and features, and then propose the large-scale support vector machines that can perform sample reduction and feature reduction simultaneously; For least squares SVM and linear discriminant analysis, study the sparse models and algorithms for feature selection and feature extraction; study the sparse models that can simultaneously perform sample and feature reduction, focusing on the interpretability of sparse regularization and sparse loss functions, and fast algorithms of large-scale problems Finally, the above research is applied to the large-scale image information retrieval problem. The study of this project is of innovative significance to the theory and practice of embedded data reduction in large-scale data mining.

如何有效进行数据归约是大规模数据挖掘的一个关键问题。嵌入式数据归约是指在学习数据挖掘任务的同时进行数据归约,是当前数据归约的研究热点。支持向量机是嵌入式数据归约的典型代表,然而传统的支持向量机只能进行样本归约,不能进行特征归约,并且对大规模数据的归约性能也亟待提高。本项目拟进一步改进支持向量机及有关嵌入式数据归约方法,施行大规模嵌入式数据归约。具体内容包括:研究对样本和特征具有更加稀疏性质的损失项和正则项,进而提出即可进行样本规约、又可进行特征归约的大规模支持向量机;对最小二乘支持向量机和判别分析,构造稀疏的特征选择和特征提取模型与算法;研究可以同时进行样本和特征归约的稀疏模型,重点关注其稀疏正则化和稀疏损失函数的可解释性和大规模问题的快速求解算法;最后,将以上研究应用于大规模图像信息检索问题。本项目的研究对大规模数据挖掘中嵌入式数据归约的理论和实践都具有创新意义。

项目摘要

如何有效进行数据归约是大规模数据挖掘的一个关键问题。嵌入式数据归约是指在学习数据挖掘任务的同时进行数据归约,是当前数据归约的研究热点。本项目以支持向量机的同时样本归约和特征归约为研究切入点,研究对样本和特征具有更加稀疏性质的损失项和正则项,进而提出了即可进行样本规约、又可进行特征归约的大规模支持向量机;对最小二乘支持向量机和判别分析,构造稀疏的特征选择和特征提取模型与算法;研究了可以同时进行样本和特征归约的稀疏模型,特别是其稀疏正则化和稀疏损失函数的可解释性和大规模问题的快速求解算法;对设计的算法在实际问题进行了数值实验,选取优秀的算法并开发了性能优异的求解器。最后,将以上研究应用于大规模图像信息检索问题。.经过4年的研究,共发表了20篇与项目相关的研究论文,参加或参与组织国际国内学术会议10次,并做报告宣传项目研究成果。培养相关毕业研究生6名。其中,作为本项目的重要结果,给出了最小二乘支持向量机同时进行样本归约和特征归约的条件以及相应的模型与算法。给出了线性判别分析同时进行样本归约和特征归约的条件以及相应的模型与算法。建立了最具有稀疏性的L0/1损失支持向量机稀疏理论基础及大规模归约算法。这些稀疏算法与工作集算法和截断算法结合,从而使其适用于大规模数据挖掘中嵌入式数据归约。.总之,本项目的完成不仅为大规模数据挖掘中嵌入式数据归约提供新的稀疏模型和新算法,而且为学科交叉与融合提供了实践经验,对于人才培养以及嵌入式稀疏归约相关领域的深度合作与交流起到了积极推动作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020

邵元海的其他基金

批准号:11871183
批准年份:2018
资助金额:52.00
项目类别:面上项目
批准号:11201426
批准年份:2012
资助金额:22.00
项目类别:青年科学基金项目
批准号:11926349
批准年份:2019
资助金额:10.00
项目类别:数学天元基金项目

相似国自然基金

1

时间序列数据挖掘中的聚类模型与算法研究

批准号:70871015
批准年份:2008
负责人:郭崇慧
学科分类:G0112
资助金额:23.00
项目类别:面上项目
2

动态数据挖掘中的演化聚类模型与算法研究

批准号:71171030
批准年份:2011
负责人:郭崇慧
学科分类:G0112
资助金额:45.00
项目类别:面上项目
3

面向大规模高维复杂数据的稀疏最优化有监督学习模型与算法

批准号:61877061
批准年份:2018
负责人:张志旺
学科分类:F0610
资助金额:50.00
项目类别:面上项目
4

数据挖掘中的稀疏张量优化方法研究

批准号:11671228
批准年份:2016
负责人:王宜举
学科分类:A0405
资助金额:48.00
项目类别:面上项目