基于特征聚类的高维混合属性数据特征选择方法

基本信息
批准号:61806131
项目类别:青年科学基金项目
资助金额:25.00
负责人:贾红
学科分类:
依托单位:深圳大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:欧阳乐,陈昌盛,秦兴红,孙瑶,李沐霖,田贤浩
关键词:
特征聚类特征选择高维数据分析数值符号混合型聚类
结项摘要

With the growing popularity of network informationization and the rapid development of new technologies on data collection, storage, and transmission, the data we obtained are presenting the following three characteristics: huge sample size, high dimensionality, and mixed feature types. Therefore, high efficient data analysis technologies are needed to analyze this large amount of high-dimensional mixed data and extract useful knowledge and information from them to provide important basis for social decision-making and scientific research. Generally, feature selection is one of the most commonly utilized techniques for high-dimensional data analysis. However, the existing feature selection methods are usually only applicable to purely numerical or categorical data, which cannot be directly applied to data with mixed attributes. In view of this, this project intends to study fast and effective feature selection method for the analysis of large high-dimensional mixed data. This study will fully explore the statistical characteristics of numerical and categorical features as well as the differences and intrinsic correlation between them. Subsequently, based on the feature clustering analysis, a new feature selection model with high efficiency and scalability is to be presented. Specifically, this project will mainly focus on studying the following three key issues: 1) Unified criteria to measure the relevance of different features with mixed types and the similarity between them; 2) Robust and adaptive clustering model and algorithm for the clustering analysis of mixed features; 3) Feature cluster based feature selection method.

随着网络信息化的日益普及以及数据收集、存储、传输等技术的迅速发展,我们所获得的数据呈现出样本规模巨大、维度较高、特征类型多样化的特点。因此,我们需要研究高效的数据分析技术从这些海量的高维的具有混合属性特征的数据中挖掘有价值的知识和信息,为社会决策及科学研究提供重要依据。在高维数据分析中,特征选择是最常用的技术方法之一。然而,已有的特征选择方法通常只适用于单一的数值属性或者符号属性数据,无法直接应用于混合属性数据。鉴于此,本项目拟面向海量高维混合属性数据,研究快速有效的特征选择方法。该研究充分探索数值型特征和符号型特征的统计特性、相互之间的差异性及内在关联,以特征聚类分析为基础,建立高效率高扩展性的特征选择模型。在深入理论研究的基础上,本项目着重研究以下三个问题:1)混合属性特征的相关性及特征间相似性的度量;2)鲁棒自适应的混合属性特征聚类分析模型与算法;3)基于特征类的特征选择方法。

项目摘要

本项目主要研究基于特征聚类的高维数据特征选择方法以及混合数据的无监督学习方法。在实际执行过程中,进行的研究内容主要包括特征间相似性的度量、基于原型聚类思想的快速特征聚类算法、基于特征簇的特征子集选择方法、基于低冗余学习的高维多视图数据特征选择方法以及无监督环境下混合属性数据的聚类分析方法。其中,在特征聚类方面,提出的新的基于原型的聚类算法无需预先定义类别数目,而是从数据集中循环学习得到最终的特征类别数目。该算法在特征划分过程中不断调整特征类的数量,增加了算法应对不同数据集不同特征相似性的灵活性和适应性。基于学习所得的特征簇挑选特征子集时,我们提出了局部拉普拉斯得分的概念,使得挑选的特征子集具有较好的学习性能。其次,针对大多数现有的多视图特征选择算法所选特征子集可能会保留与学习任务相关但彼此高度冗余的特征的问题,项目中研究了一种适用于多视图无监督特征选择的低冗余学习方法。该方法同时考虑视图内和视图间的特征冗余情况,选择冗余度低的特征子集。另外,本项目还研究了混合类别属性数据聚类分析方法,提出一种基于动态距离度量的混合类别属性数据聚类分析算法。该方法同时考虑离散属性本身的特性以及序数属性的拓扑结构,较好地反应混合类别属性数据的类别结构。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

贾红的其他基金

批准号:31302130
批准年份:2013
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于概率图与自适应聚类的混合特征种群结构推断方法研究

批准号:61101234
批准年份:2011
负责人:王峻
学科分类:F0124
资助金额:27.00
项目类别:青年科学基金项目
2

高维数据非负稀疏特征抽取及聚类算法研究

批准号:61065003
批准年份:2010
负责人:刘遵雄
学科分类:F0304
资助金额:28.00
项目类别:地区科学基金项目
3

高维多媒体特征的低维流形子空间降维及聚类研究

批准号:61472172
批准年份:2014
负责人:岳峻
学科分类:F0209
资助金额:84.00
项目类别:面上项目
4

基于高维特征和稀疏子空间聚类的图像分割方法研究

批准号:61472303
批准年份:2014
负责人:王卫卫
学科分类:F0210
资助金额:80.00
项目类别:面上项目