高维数据特征选择的稳定性研究

基本信息

批准号：61202144

项目类别：青年科学基金项目

资助金额：23.00

负责人：杨帆

学科分类：

依托单位：厦门大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：罗林开,周绮凤,邹权,邱一卉,李波,吕伟航,李旋

关键词：

稳定性基因表达数据特征选择高维数据

结项摘要

Stability of feature selection from high dimensional data is an important yet under-addressed issue. Existing feature selection methods focus on improving the performance of classifiers, such as prediction accuracy, computational efficiency etc., and use these metrics to evaluate the quality of feature subsets produced by feature selection algorithms. Unfortunately, the results of feature selection algorithms might be unstable and unreliable in high-dimensional spaces because they are very sensitive to different variations in the data. In order to improve the stability and reliability of feature selection algorithms, this project analyzes the major causes of the instability by investigating the distribution of gene expression data in a high-dimensional space. ..The research merits of this project include: (1) A new stability measurement of feature selection is proposed based on the characteristics of high dimensional data distribution; (2) A feature evaluation criteria based on the classification objective function is presented through the analysis of classical feature selection algorithms; (3) A hidden variable model based feature selection algorithm is proposed by taking into account the correlation between the features; (4) A decomposition-based feature selection method for multiclass classification is designed for the localized data distribution; (5) A recursive local feature selection method is proposed under the paradigm of "clustering - feature selection" by taking into account the diversity of the intra-class distribution. The success of this project will significantly improve the stability of feature selection algorithms in high dimensional space, and will show potential practical values to real-world applications such as gene selection, gene regulatory networks, and cancer subtypes discovery.

高维特征选择的稳定性是一个重要而又尚未解决的难题。已有的特征选择研究主要关注学习机器的预测准确率和计算效率，以准确率及其相关指标作为评价特征选择结果的依据。然而在高维数据空间中，训练数据集上的微小变化会造成特征选择结果的不稳定和不可靠。本项目以基因表达数据为研究对象，从高维数据空间和基因表达数据的分布特点出发，分析高维数据特征选择不稳定性的可能来源，以改善其稳定性和可靠性。.研究内容包括：通过分析高维数据分布的特点，建立特征选择的稳定性指标；通过对经典特征选择算法的分析，研究基于目标函数的特征评价准则；考虑到特征之间的关联性，提出基于隐变量模型的特征选择策略；针对数据分布的局部性，设计基于分解的多分类特征选择方法；进一步考虑到类内分布的多样性，提出"聚类-特征选择"的递归式局部特征选择策略。本项目的研究成果将提升高维特征选择的稳定性，并将应用到基因选择、基因调控网络和癌症亚型的发现中。

项目摘要

本项目针对高维特征选择的稳定性问题，以基因表达数据为研究对象，从高维数据的特点出发，分析特征选择不稳定性的可能来源，进而提出相关方案以改善其稳定性。针对基因表达数据特征选择的稳定性问题，提出一系列新的思想、研究方案和算法；在Matlab平台上实现了已有的基因表达数据分析的若干经典特征选择算法，并设计实现了若干种分别基于支持向量机和随机森林的新算法；进而针对非平衡分类、多示例学习、聚类等问题，开展了深入研究；针对基因表达数据、微生物群落的高通量测序数据以及其他高维数据，进行应用研究。本项目按计划实现了预期研究目标和任务，发表SCI或者EI检索的论文17篇，接收1篇，其中JCR3区以上期刊论文10篇，国际会议论文6篇。.(1)对高维空间中数据分布特点和距离度量函数进行了研究，结果表明，高维空间中数据分布的稀疏性特点导致不同度量函数结果的差异性。提出了随机森林算法特征选择的内在稳定性问题，分析了其建模过程中随机机制的影响，对比分析了参数、数据集特点和数据扰动的影响，揭示了随机森林内部存在的不稳定性；考虑到集成学习算法的间隔理论，根据特征对随机森林的间隔分布的影响设计了新的特征选择算法；提出一种基于集成学习的Multi-relief-F算法，结果更加稳定。 .(2) 提出一种新的特征选择算法框架（ARFS），利用Kolmogorov算法随机性检测，评价特征的重要性。分别设计了ARFS-RF，ARFS-SVM和ARFS-NB算法；提出一种随机森林特征选择的递归特征消除算法。.(3)提出了基于类分解的特征选择算法。针对数据非平衡问题，提出了基于类分解的非平衡特征选择算法，进一步提出采用聚类算法进行分解。结果验证了项目书提出的猜想，即寻找全局的特征子集是不必要的，在某些情形下甚至是错误的。基于分解的特征选择比全局的特征选择算法有更好的稳定性；.(4)探讨了多标记学习问题中的特征选择稳定性问题。通过引入Conformal Predictor，提出一种新的多标记学习算法； .(5)探讨了聚类集成中差异性和质量对集成效果的影响，结果表明，在聚类成员质量达到一定程度后，差异性起到了更大的作用。据此设计了2种新的聚类集成算法: RS-NN和FS-RS-NN；.(6)对基因表达数据的预处理、基于物种相似性的真核生物基因注解、微生物种群的高通量测序数据等问题开展了应用研究。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.7605/gdlxb.2022.03.033

发表时间：2022

杨帆的其他基金

批准号：21473212

批准年份：2014

资助金额：95.00

项目类别：面上项目

批准号：51605202

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：81260046

批准年份：2012

资助金额：50.00

项目类别：地区科学基金项目

批准号：21775034

批准年份：2017

资助金额：65.00

项目类别：面上项目

批准号：31201302

批准年份：2012

资助金额：20.00

项目类别：青年科学基金项目

批准号：21906157

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：61301272

批准年份：2013

资助金额：24.00

项目类别：青年科学基金项目

批准号：81560074

批准年份：2015

资助金额：38.00

项目类别：地区科学基金项目

批准号：61801409

批准年份：2018

资助金额：26.00

项目类别：青年科学基金项目

批准号：51102254

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：21102134

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：61602516

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：31900863

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：61474026

批准年份：2014

资助金额：70.00

项目类别：面上项目

批准号：61006030

批准年份：2010

资助金额：24.00

项目类别：青年科学基金项目

批准号：11326215

批准年份：2013

资助金额：3.00

项目类别：数学天元基金项目

批准号：51106084

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：51909029

批准年份：2019

资助金额：23.00

项目类别：青年科学基金项目

批准号：81302691

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：41907016

批准年份：2019

资助金额：27.00

项目类别：青年科学基金项目

批准号：21776302

批准年份：2017

资助金额：64.00

项目类别：面上项目

批准号：81172493

批准年份：2011

资助金额：14.00

项目类别：面上项目

批准号：42002048

批准年份：2020

资助金额：16.00

项目类别：青年科学基金项目

批准号：61873142

批准年份：2018

资助金额：67.00

项目类别：面上项目

批准号：81800145

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：81201088

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：21305034

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：81901853

批准年份：2019

资助金额：21.00

项目类别：青年科学基金项目

批准号：71704108

批准年份：2017

资助金额：18.00

项目类别：青年科学基金项目

批准号：31402253

批准年份：2014

资助金额：22.00

项目类别：青年科学基金项目

批准号：11674025

批准年份：2016

资助金额：60.00

项目类别：面上项目

批准号：81902672

批准年份：2019

资助金额：20.00

项目类别：青年科学基金项目

批准号：11402173

批准年份：2014

资助金额：28.00

项目类别：青年科学基金项目

批准号：81772469

批准年份：2017

资助金额：25.00

项目类别：面上项目

批准号：21103200

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：31602090

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：31600331

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

批准号：10704008

批准年份：2007

资助金额：19.00

项目类别：青年科学基金项目

批准号：51007096

批准年份：2010

资助金额：19.00

项目类别：青年科学基金项目

批准号：81901408

批准年份：2019

资助金额：20.50

项目类别：青年科学基金项目

批准号：10902070

批准年份：2009

资助金额：22.00

项目类别：青年科学基金项目

批准号：30901093

批准年份：2009

资助金额：19.00

项目类别：青年科学基金项目

批准号：50604009

批准年份：2006

资助金额：19.00

项目类别：青年科学基金项目

批准号：31901892

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：31600413

批准年份：2016

资助金额：23.00

项目类别：青年科学基金项目

批准号：31660165

批准年份：2016

资助金额：39.00

项目类别：地区科学基金项目

批准号：61374144

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：31370394

批准年份：2013

资助金额：86.00

项目类别：面上项目

批准号：61902436

批准年份：2019

资助金额：29.00

项目类别：青年科学基金项目

批准号：11274041

批准年份：2012

资助金额：78.00

项目类别：面上项目

批准号：51777023

批准年份：2017

资助金额：64.00

项目类别：面上项目

批准号：11304234

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：51608535

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：21808101

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：51407114

批准年份：2014

资助金额：24.00

项目类别：青年科学基金项目

批准号：50901020

批准年份：2009

资助金额：20.00

项目类别：青年科学基金项目

批准号：61675040

批准年份：2016

资助金额：16.00

项目类别：面上项目

批准号：11561045

批准年份：2015

资助金额：35.00

项目类别：地区科学基金项目

批准号：71701044

批准年份：2017

资助金额：19.00

项目类别：青年科学基金项目

批准号：51604001

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：11903007

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：81471164

批准年份：2014

资助金额：70.00

项目类别：面上项目

批准号：31270449

批准年份：2012

资助金额：83.00

项目类别：面上项目

批准号：71704083

批准年份：2017

资助金额：17.00

项目类别：青年科学基金项目

批准号：20772032

批准年份：2007

资助金额：28.00

项目类别：面上项目

批准号：81800341

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：30700995

批准年份：2007

资助金额：17.00

项目类别：青年科学基金项目

批准号：81403301

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：81570938

批准年份：2015

资助金额：25.00

项目类别：面上项目

批准号：31902333

批准年份：2019

资助金额：24.00

项目类别：青年科学基金项目

批准号：41804016

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：21473191

批准年份：2014

资助金额：88.00

项目类别：面上项目

批准号：21303195

批准年份：2013

资助金额：26.00

项目类别：青年科学基金项目

批准号：11775120

批准年份：2017

资助金额：56.00

项目类别：面上项目

批准号：41071022

批准年份：2010

资助金额：42.00

项目类别：面上项目

批准号：31671796

批准年份：2016

资助金额：62.00

项目类别：面上项目

批准号：81660298

批准年份：2016

资助金额：29.00

项目类别：地区科学基金项目

批准号：61371013

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：82001468

批准年份：2020

资助金额：16.00

项目类别：青年科学基金项目

批准号：51778436

批准年份：2017

资助金额：61.00

项目类别：面上项目

批准号：41505008

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：51477013

批准年份：2014

资助金额：95.00

项目类别：面上项目

批准号：31900936

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：11772231

批准年份：2017

资助金额：56.00

项目类别：面上项目

批准号：60904044

批准年份：2009

资助金额：19.00

项目类别：青年科学基金项目

批准号：11904259

批准年份：2019

资助金额：26.00

项目类别：青年科学基金项目

批准号：51609210

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

批准号：41771250

批准年份：2017

资助金额：63.00

项目类别：面上项目

批准号：21202203

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：81000551

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：11602031

批准年份：2016

资助金额：22.00

项目类别：青年科学基金项目

批准号：81460160

批准年份：2014

资助金额：46.00

项目类别：地区科学基金项目

批准号：21405026

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：41301181

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：31800990

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：81072872

批准年份：2010

资助金额：33.00

项目类别：面上项目

批准号：51308392

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：81070803

批准年份：2010

资助金额：32.00

项目类别：面上项目

批准号：70341026

批准年份：2003

资助金额：6.00

项目类别：专项基金项目

100

批准号：81600493

批准年份：2016

资助金额：17.00

项目类别：青年科学基金项目

101

批准号：11502197

批准年份：2015

资助金额：22.00

项目类别：青年科学基金项目

102

批准号：81800784

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

103

批准号：11501256

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

104

批准号：81170930

批准年份：2011

资助金额：50.00

项目类别：面上项目

相似国自然基金

基于特征聚类的高维混合属性数据特征选择方法

批准号：61806131

批准年份：2018

负责人：贾红

学科分类：F0603

资助金额：25.00

项目类别：青年科学基金项目

基于量子进化算法和模型组合的高维数据特征选择

批准号：61572109

批准年份：2015

负责人：杨国武

学科分类：F0210

资助金额：65.00

项目类别：面上项目

面向高维混合数据的信息粒化与特征选择研究

批准号：61662023

批准年份：2016

负责人：舒文豪

学科分类：F0607

资助金额：38.00

项目类别：地区科学基金项目

基于自生式多目标Memetic算法的高维数据特征选择研究

批准号：61001185

批准年份：2010

负责人：朱泽轩

学科分类：F0113

资助金额：25.00

项目类别：青年科学基金项目

高维数据特征选择的稳定性研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

智能煤矿建设路线与工程实践

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

二维FM系统的同时故障检测与控制

二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例

杨帆的其他基金

过渡金属羰基配合物动态结构的二维红外光谱研究

线弹性系统的动态分布载荷识别研究

Tfh细胞在病毒性心肌炎小鼠中的变化及辅助抗ANT抗体产生的机制研究

芯片式微管电极3-D微纳协同传感界面构建及用于肿瘤外泌体高效捕获与原位分析

基于“模块途径工程”策略的功能性油脂生物积累机制研究

纳米二氧化钛对莱茵衣藻砷还原与甲基化的影响机制

基于突发OFDM系统的时域符号同步关键技术研究

NLRP3炎症小体在小鼠柯萨奇病毒性心肌炎中的作用及其与Th17细胞的相关性研究

SDN架构下的异构车联网多域资源虚拟化研究

均匀强子量能器用闪烁晶体PbFCl中缺陷研究与解理抑制

苯并杂环衍生物的新合成方法研究

智能教学系统中学习路径构建方法研究

运用液体核磁共振研究人类mRNA加工因子Fip1调控CPSF识别多聚腺苷酸化信号的分子基础

图的谱方法及其在纳米尺度集成电路分析优化中的应用

集成电路分析中的非线性模型降阶方法研究

凯莱图的整数流、群连通度问题的研究

高压扩散火焰的脉冲不稳定性研究

海底管道的阻力危机现象暨高雷诺数边界层转捩研究

西沙海绵中抗疟功能分子骨架的发现及结构修饰

生物炭-土壤矿物质界面结合机制及其对碳稳定性的影响

碳基非贵金属催化剂的构筑及其催化性能研究

利用基因转导技术诱导正常人卵巢上皮细胞恶性转化建立新型人卵巢上皮癌动物模型

南海高镁洋中脊玄武岩的成因及动力学机制研究

基于时间序列的因果推断及其在故障溯源中的应用

AICAr通过打破嘌呤-嘧啶平衡治疗PRPS1基因突变耐药复发ALL的机制研究

靶向EGFR的新型磁共振成像对比剂实验研究

基于DNA三维纳米探针的微尺度电化学microRNAs检测新方法

应用OCT探寻硫化氢调控高糖高脂状态下平滑肌细胞表型转换的机制研究

城镇化下老人心理健康的社区环境影响因素评估及优化研究：基于“撤村建居”的实践

不同水温下氟苯尼考及其代谢物氟苯尼考胺在鲫鱼体内的生理药动学模型研究

內秉拓扑超导的材料实现的理论研究

转录因子YB-1与PD-L1正反馈互作促进乳腺癌转移的机制研究

聚合物充填处理的电路板在热力载荷下的失效研究

肺腺癌中不同形态成分间演化关系及关键事件的研究

小分子氢键超快动态结构的二维红外光谱研究

口蹄疫病毒S片段缺失70核苷酸对病毒复制和致病性的影响

种子异型性对盐生环境的可塑性响应及适应意义

高温超导物性理论的变分研究

基于坡印亭矢量的输电导线电磁—热耦合场影响因素及相互影响规律研究

分泌型Galectin-3在细胞衰老诱导肝癌干细胞恶性转化中的作用及机制

翼型空化流动的介观模型研究

罗氏沼虾疏水分子转运蛋白lipocalin的功能研究

多频次采动矿山地层沉陷致灾机理研究

豆科作物对邻近棉田蚜虫-寄生蜂食物网结构与功能的影响

农业废弃物生物炭可控制备及其对土壤有机污染的强化修复——以典型除草剂阿特拉津为例

海南省松涛水库消落区植被恢复适宜物种的筛选及耐水淹机制研究

智能车辆悬架系统中磁变流体阻尼器建模与滞环非线性控制技术研究

卤虫在极端环境适应过程中的自噬作用及其调控机制

一种数据驱动的ACPS建模与可靠性验证方法研究

非常规超导及相关问题的变分蒙特卡罗研究

针对烧伤皮肤组织的太赫兹成像基础研究

缺陷态石墨烯负载CdS复合材料结构与分解水制氢性能的第一性原理研究

城市绿地系统规划与雨洪管理协同的效能评估与实现机理研究

晶硅线锯废砂浆升级改造制备石墨烯-硅复合锂电池负极材料的基础研究

PEMFC-SC混合发电系统的无源非线性控制研究

共析钢连续大应变拉拔过程形变珠光体精细结构、织构与应力演化

基于光学定位与协同扫描的水下激光ATP关键技术研究

扩散方程的两类反问题的正则化方法和算法研究

基于多源数据融合的出行特征挖掘和需求预测建模

混合用药在白钨矿浮选中的协同效应的结构匹配机制研究

明清中西会通星表研究

中枢神经环路对骨代谢的调控机理研究

美洲黑杨对冬季水淹及后期恢复的性别特异性响应

基于Diderichsen理论的慢性病健康差异测量及其影响因素模型构建

季铵盐修饰聚氨基酸催化剂的设计、合成及其在alpha,beta-不饱和酮不对称环氧化反应中的应用

环状RNA(circ_0127646)在钙化性主动脉瓣疾病中的作用及分子机制研究

非小细胞肺癌中K-ras突变引起EGFR抑制剂耐药机制的研究

化坚解毒活血法调节p53-microRNA200/HIF-1a发挥抗大肠癌转移的分子机制

长链非编码LincROR 吸附miRNA在调控牙髓干细胞自我更新中的作用机制

Mfn2介导的线粒体内质网结构偶联在高铜诱导鸭肾组织自噬中的作用