Feature selection is a fundamental research issue in pattern recognition, machine learning and data mining. The commonness of existing feature selection methods is that, both features and class are taken as varibles and a scalar value is computed to indicate the classification ability of a feature. For a complicated problem, such as multi-class, multi-label classification problem, a scalar value can hardly reveal the multi-faceted contributions of a feature for the different aspects of the problem. In addition, different classes incline to differently correlated with each other in a complicated classification problem, which is far from the simple contrary relation. Such complicated relations can hardly be evaluated effectively and treated differently by traditional feature selection criteria, which is mainly aimed at separating different classes apart. In view of such issues, this project intends to study how to select features based on discrimination structure measurement and class correlation preservation. The work mainly involves: measurement of classification ability of a feature based on local learning techniques, feature selection based on class correlation preservation, and experimental verification of the proposed approaches on public machine learning data. The work aims mainly at making a preliminary research on feature selection methodology for complicated classification problems.
特征选取是模式识别、机器学习与数据挖掘中的基础研究问题。现有特征选取方法的共性是,将特征与类均看作变量,并以某一标量来度量特征的类区分能力。对于多类、多标签等复杂分类问题,首先,仅以一个标量值区分特征的分类能力,无法体现特征对分类问题所涉及的不同方面的贡献。另外,在复杂分类问题中,各类间除了对立关系,还可能存在不同程度的相容等复杂相关性关系。显然,现有的以将不同类区分开为目的的特征选取方法无法有效考虑并区别处理这种关系。基于以上考虑,本项目拟对基于分类能力结构度量与类相关性关系保留的特征选取方法进行研究,主要研究内容包括:研究基于局部学习等理论的特征分类能力度量方法;研究类间相关性保留的特征选取方法,并在公开机器学习数据上验证方法的有效性。通过研究,对复杂分类问题的特征选取方法进行初步探索。
特征选取是模式识别、机器学习与数据挖掘中的基础研究问题,其研究目的不仅在于发现对系统起决定性作用的关键因素,而且,在如今大数据时代,对数据降维从而提高数据处理的实时性具有重要意义。现有特征选取方法的共性是,将特征与类均看作变量,并以某一标量来度量特征的类区分能力。对于多类、多标签等复杂分类问题,首先,仅以一个标量值区分特征的分类能力,无法体现特征对分类问题所涉及的不同方面的贡献。另外,在复杂分类问题中,各类间除了对立关系,还可能存在不同程度的相容等复杂相关性关系。显然,现有的以将不同类区分开为目的的特征选取方法无法有效考虑并区别处理这种关系。基于以上考虑,本项目对基于分类能力结构度量与类相关性关系保留的特征选取方法进行了研究,主要研究内容包括:研究基于局部学习等理论的特征分类能力度量方法;研究类间相关性保留的特征选取方法,并在公开机器学习数据上验证方法的有效性。.通过研究,给出了考虑类间相关性保留的特征选取方法;给出了基于局部最近邻的有监督特征权重模型,解决了现有基于大间隔最近邻的有监督特征选择算法无法同时满足”选择正确的样本最近邻”和”定义与分类器直接相关的损失函数”的问题,并进一步给出了基于联合聚类的无监督特征选择模型,同时也研究给出了保留空间一致性的半监督多标签特征选取方法;为考虑特征间互补性,给出了基于AUC和特征间互补性的特征选择方法AVC,为进一步解决基于AUC方法的鲁棒性以及未考虑同类近邻的问题,给出最大化近邻互补性的特征选取方法ANNC。在资金资助下,已经完成原计划内容,并进一步对其他相关问题进行了研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
面向流域特征与河网结构的水系自动选取方法研究
基于距离度量学习和类依赖特征分析的人脸特征提取方法研究
模式识别的特征选取Lasso改进方法与应用研究
基于度量学习的特征提取方法研究