基于数据集相似性的分类算法自动选择研究

基本信息
批准号:61602308
项目类别:青年科学基金项目
资助金额:16.00
负责人:潘彬彬
学科分类:
依托单位:深圳大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:黄超,李育高,董怀琴
关键词:
特征抽取分类算法数据集相似性算法选择
结项摘要

Different classification algorithm has a different class of data sets on which it performs well, which implies choosing a proper classification algorithm for a given data set is important. However, it is very difficult to select a suitable classification algorithm manually. Therefore, it is of vital importance for choosing a classification algorithm automatically according to the data set characteristics. The key scientific problem of automatic selection of classification algorithms (or algorithm selection for short) is how to characterize the data set features. Most of the existing methods describe the features using statistical and information-theoretic measures. This description would lose some useful information for the classification algorithms, thereby affecting the accuracy of algorithm selection. In addition, there is no theoretical study on the impact of features on classification performance for all existing work, resulting in a lack of theoretical guidance. To sum up, the existing methods have two drawbacks: one is the insufficient feature information; the other is the lack of theoretical analysis. To remedy the above limitations, this project will research on four points. The first point is to extract features for the purpose of preserving as much as information of the problems. Then, we develop an efficient algorithm to compute the similarity between data sets based on the data set features. Next, we establish the relationship between data sets and classification algorithms based on the similarity between the data sets. Finally, we theoretically analyze the impact of features on classification performance. This project is expected to make great progress in feature extraction and theoretical analysis. The research achievements will be applied to algorithm selection. It will open a new way for the practical applications of algorithm selection systems.

不同的分类算法擅长的数据集类型不同,需要针对给定的数据集选择合适的分类算法。人工选择合适的分类算法具有很大的困难。因此,根据数据集的特点自动选择分类算法具有重要的意义。分类算法自动选择(简称算法选择)的关键科学问题是如何描述数据集的特征。已有方法大多采用统计或信息论的特征描述,会丢失一些对分类有用的信息,从而影响算法选择的准确度。此外,已有的工作均无进行特征对分类算法性能影响的理论研究,从而缺乏理论指导。针对目前研究中特征包含的信息不足,以及缺乏理论分析的缺陷,本项目拟研究四个内容:(1)提取特征以尽可能地保留数据集的信息;(2)基于数据集特征,设计出度量数据集相似性的高效算法;(3)基于数据集相似性,建立数据集与分类算法的联系;(4)理论分析特征对分类算法性能的影响。本项目拟希望在特征提取和理论分析方面取得突破性进展,将所取得的成果应用于算法选择,最终为算法选择系统的实际应用开辟新途径。

项目摘要

不同的分类算法擅长的数据集类型不同,需要针对给定的数据集选择合适的分类算法。然而,分类算法的自动选取(简称算法选择)具有极大的挑战性。算法选择的关键问题是提取数据集的特征。已有的特征提取方法无法较好地保留数据集的几何信息,以及缺乏理论分析。针对以上问题,本项目研究根据数据集的几何信息以及分类问题的决策边界来提取数据集的特征。我们通过数据集内积构成的Gram矩阵来保留数据集的几何结构,以及利用数据集的类别信息来描述分类问题的决策边界。数据集相似性的计算是一个NP-hard问题,我们通过问题的特殊结构,提出了高效的算法求解近似解,并理论分析了近似解与精确解的联系。进一步,我们在理论上研究数据集特征的相似程度对支持向量机分类器的影响,结果表明,分类器的性能与数据集的几何信息以及类标相关。与已有的特征相比,我们提出的特征有更好的分类性能。本项目的研究成果将帮助设计性能更好的算法选择系统。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019
4

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
5

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020

潘彬彬的其他基金

批准号:11526145
批准年份:2015
资助金额:3.00
项目类别:数学天元基金项目

相似国自然基金

1

基于粗集理论的遥感影像自动分类模型研究

批准号:40201039
批准年份:2002
负责人:巫兆聪
学科分类:D0113
资助金额:22.00
项目类别:青年科学基金项目
2

多标记数据分类及其特征选择算法研究

批准号:61100119
批准年份:2011
负责人:刘华文
学科分类:F0607
资助金额:22.00
项目类别:青年科学基金项目
3

基于地物相似性的空间数据自动变化检测

批准号:40801155
批准年份:2008
负责人:唐炉亮
学科分类:D0107
资助金额:19.00
项目类别:青年科学基金项目
4

面向多模态数据的粗糙集特征选择及其增量算法研究

批准号:61806108
批准年份:2018
负责人:杨燕燕
学科分类:F0601
资助金额:17.00
项目类别:青年科学基金项目