多标签分类中的特征提取与选择方法研究

基本信息
批准号:61273246
项目类别:面上项目
资助金额:79.00
负责人:许建华
学科分类:
依托单位:南京师范大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:彭作民,姚奕,董泉源,陶腾飞,冯雪东,孙成宇,刘佳丽
关键词:
特征提取多标签分类特征选择支持向量机多目标优化
结项摘要

Multi-label classification is a special pattern recognition issue, where any instance possibly belongs to multiple classes or labels simultaneously, and thus the classes are overlapped. Its specificity mainly behaves via one-to-many mapping relation from instances to labels, and correlations among labels, which are described using constraints, second moments, multi-objective optimization and so on, and then are integrated into multi-label feature extraction and selection methods in this project. We investigate a weighted assignment strategy for multi-label instances and construct a corresponding feature extraction algorithm based on both data decomposition trick and linear discriminant analysis. Through minimizing squared projection error for instances and labels respectively, and maximizing correlation between instances and labels at tha same time, an optimization problem of linear combination of such three objectives is designed and solved for multi-label feature extraction. An embedded feature extraction approach is presented while multi-label support vector machine is used as a baseline algorithm. Using multi-objective evolution optimization technique, a multi-label feature selection method is constructed through simultaneously optimizing two performance indexes from label ranking-based and labelset-based measures respectively. A novel multi-label linear support vector machine is designed and implemented, and then is used to build a feature ranking and selection method based on sequentially backward way. These researches in this project will further improve the performance and computational complexity of multi-label classification methods, and enhance model understanding and interpretability, which is significant for developing pattern recognition theory and its applications.

多标签分类是样本可以同时属于多个类别(或者标签)、类别间可以相互重叠的模式识别问题,其特殊性主要体现在样本到标签的一对多映射关系和标签间的相关性。本项目利用约束条件、二阶矩、多目标优化等手段来描述这些特殊信息,并将其有效地融入到多标签特征提取与选择方法中。研究多标签样本的加权分派策略,实现基于数据分解手段与线性判别分析的特征提取算法;最小化样本和标签均方投影误差、最大化样本与标签之间的相关性,构造三者线性组合的优化问题来实现特征提取算法;以多标签支持向量机为基线算法,设计与实现嵌入式的特征提取算法。利用多目标进化优化技术同时优化基于标签排序与标签子集的两个性能指标,完成多标签特征选择任务;设计与实现高效的多标签线性支持向量机,建立基于顺序后退方式的特征排序与选择算法。本项目的研究将进一步改善多标签分类算法的性能和计算复杂性、提高模型的可解释性,对发展模式识别理论与应用都具有重要意义。

项目摘要

多标签分类是样本可以同时属于多个不分主次类别(或标签)、类别间可以相互重叠的模式识别问题。本项目完成了五个方面的工作:多标签的特征提取、特征选择、标签压缩编码和快速分类算法的研究,以及蛋白质多标签数据集的构造。..在建立依赖性最大特征降维技术的最小二乘表达后,提出同时最大化特征方差、特征与标签间依赖性的特征提取算法。总结现有多标签线性判别分析基础上,建立加权多标签线性判别框架,及其在收集四个现有权值后,提出依赖性最大化的权值形式。进一步,构建一个包含12个算法的开放软件包ML-FE1.12。..分析并指出多标签评价指标中存在着弱相互矛盾性,提出同时最大化平均精度、最小化Hamming损失、固定特征数目的多目标特征选择算法。依据Hilbert-Schmidt独立性准则衡量特征间的条件冗余性、特征与标签间的相关性,构建基于顺序前进的过滤式特征选择算法。改造二次规划特征选择模型,提出基于Frank-Wolfe和坐标下降法的二次规划特征选择算法、..针对多标签分类中存在着高维稀疏标签向量的现象,提出两个标签压缩编码方法。通过最大化Hilbert-Schmidt独立性准则,构建线性标签压缩编码方法;将五层自动编码器与极限学习机的高效训练策略相结合,提出非线性压缩编码方法,据我们了解,这是第一个非线性标签压缩编码技术。..为了更好地开展特提取与选择研究,设计和实现五个快速的多标签分类算法。针对经典多标签支持向量机及其我们先前提出的带零标签模型,采用块坐标下降法加速其优化过程。推广两类核心向量机,提出基于Frank-Wolfe技术的多标签核心向量机及其带零标签的形式。推广两类Lagrange支持向量机,建立基于随机块坐标下降法和块变量收缩策略的多标签形式。这些成果已经添加到我们的开放软件包MLC-SVM1.35中。..为了扩大多标签分类的应用领域并给同行提供开放数据集,我们构造十个蛋白质数据集:四个基于序列组分和六个基于基因本体信息的蛋白质亚细胞定位数据集。..本项目的上述成果提高多标签分类算法的性能、降低计算复杂性、改善模型的可解释性,进一步推动模式识别理论与应用的发展。..我们的主页地址为:http://computer.njnu.edu.cn/Lab/LABIC/LABIC_index.html,可以下载上面提到的相应软件包和数据集。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

许建华的其他基金

批准号:60875001
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:58978366
批准年份:1989
资助金额:3.00
项目类别:面上项目
批准号:30873101
批准年份:2008
资助金额:32.00
项目类别:面上项目
批准号:81573940
批准年份:2015
资助金额:25.00
项目类别:面上项目
批准号:11302177
批准年份:2013
资助金额:28.00
项目类别:青年科学基金项目
批准号:30472187
批准年份:2004
资助金额:22.00
项目类别:面上项目
批准号:30171158
批准年份:2001
资助金额:19.00
项目类别:面上项目
批准号:81173096
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81073105
批准年份:2010
资助金额:32.00
项目类别:面上项目

相似国自然基金

1

复杂信息分类模式的特征提取与分类器构造方法研究

批准号:69975017
批准年份:1999
负责人:陈亚秋
学科分类:F0605
资助金额:12.00
项目类别:面上项目
2

面向多视角多标签数据的支持张量机分类算法研究

批准号:61472089
批准年份:2014
负责人:郝志峰
学科分类:F0605
资助金额:86.00
项目类别:面上项目
3

RFID多标签几何分布的优化理论与方法研究

批准号:61801188
批准年份:2018
负责人:于银山
学科分类:F0123
资助金额:25.00
项目类别:青年科学基金项目
4

面向多源高维数据流的在线特征选择与分类方法研究

批准号:61673152
批准年份:2016
负责人:胡学钢
学科分类:F0605
资助金额:61.00
项目类别:面上项目