How to effectively perform data reduction is a key issue for large-scale data mining. Embedded data reduction refers to data reduction while learning data mining tasks. It is a research hotspot for current data reduction. Support vector machine (SVM) is a typical representative of embedded data reduction. However, traditional support vector machines can only perform sample reduction, and cannot perform feature reduction. Furthermore, it is particularly important data to improve the performance of the data reduction for the large-scale. This project intends to further improve support vector machines and related embedded data reduction methods for large-scale embedded data reduction. The specific contents include: Study loss functions and regular terms with more sparse nature of both samples and features, and then propose the large-scale support vector machines that can perform sample reduction and feature reduction simultaneously; For least squares SVM and linear discriminant analysis, study the sparse models and algorithms for feature selection and feature extraction; study the sparse models that can simultaneously perform sample and feature reduction, focusing on the interpretability of sparse regularization and sparse loss functions, and fast algorithms of large-scale problems Finally, the above research is applied to the large-scale image information retrieval problem. The study of this project is of innovative significance to the theory and practice of embedded data reduction in large-scale data mining.
如何有效进行数据归约是大规模数据挖掘的一个关键问题。嵌入式数据归约是指在学习数据挖掘任务的同时进行数据归约,是当前数据归约的研究热点。支持向量机是嵌入式数据归约的典型代表,然而传统的支持向量机只能进行样本归约,不能进行特征归约,并且对大规模数据的归约性能也亟待提高。本项目拟进一步改进支持向量机及有关嵌入式数据归约方法,施行大规模嵌入式数据归约。具体内容包括:研究对样本和特征具有更加稀疏性质的损失项和正则项,进而提出即可进行样本规约、又可进行特征归约的大规模支持向量机;对最小二乘支持向量机和判别分析,构造稀疏的特征选择和特征提取模型与算法;研究可以同时进行样本和特征归约的稀疏模型,重点关注其稀疏正则化和稀疏损失函数的可解释性和大规模问题的快速求解算法;最后,将以上研究应用于大规模图像信息检索问题。本项目的研究对大规模数据挖掘中嵌入式数据归约的理论和实践都具有创新意义。
如何有效进行数据归约是大规模数据挖掘的一个关键问题。嵌入式数据归约是指在学习数据挖掘任务的同时进行数据归约,是当前数据归约的研究热点。本项目以支持向量机的同时样本归约和特征归约为研究切入点,研究对样本和特征具有更加稀疏性质的损失项和正则项,进而提出了即可进行样本规约、又可进行特征归约的大规模支持向量机;对最小二乘支持向量机和判别分析,构造稀疏的特征选择和特征提取模型与算法;研究了可以同时进行样本和特征归约的稀疏模型,特别是其稀疏正则化和稀疏损失函数的可解释性和大规模问题的快速求解算法;对设计的算法在实际问题进行了数值实验,选取优秀的算法并开发了性能优异的求解器。最后,将以上研究应用于大规模图像信息检索问题。.经过4年的研究,共发表了20篇与项目相关的研究论文,参加或参与组织国际国内学术会议10次,并做报告宣传项目研究成果。培养相关毕业研究生6名。其中,作为本项目的重要结果,给出了最小二乘支持向量机同时进行样本归约和特征归约的条件以及相应的模型与算法。给出了线性判别分析同时进行样本归约和特征归约的条件以及相应的模型与算法。建立了最具有稀疏性的L0/1损失支持向量机稀疏理论基础及大规模归约算法。这些稀疏算法与工作集算法和截断算法结合,从而使其适用于大规模数据挖掘中嵌入式数据归约。.总之,本项目的完成不仅为大规模数据挖掘中嵌入式数据归约提供新的稀疏模型和新算法,而且为学科交叉与融合提供了实践经验,对于人才培养以及嵌入式稀疏归约相关领域的深度合作与交流起到了积极推动作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
时间序列数据挖掘中的聚类模型与算法研究
动态数据挖掘中的演化聚类模型与算法研究
面向大规模高维复杂数据的稀疏最优化有监督学习模型与算法
数据挖掘中的稀疏张量优化方法研究