稳健高维变量选择方法及其在基因表达分析中的应用研究

基本信息
批准号:81502891
项目类别:青年科学基金项目
资助金额:18.00
负责人:孙红卫
学科分类:
依托单位:滨州医学院
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:王玖,胡乃宝,张彬彬,刘海霞,张中文
关键词:
变量筛选效应量统计学
结项摘要

High dimensional data has sprung up in bioinformatics, image processing, finance and other fields. By variable selection for high dimensional data, simple model can be available and it is easy to interpret the effect of single variable. It is common that there are outliers in high dimensional data. So the error of not robust methods is high. By now, all robust methods are based on LASSO (Least Absolute Shrinkage and Selection Operator) which is proposed earlier. It is proved to be biased by theory and practice. So the methods based on LASSO will have low accuracy. In this study, we will propose a new robust high dimensional variable selection method-MCP ( Minimax Concave Penalty). It combines two kinds of methods together. One is the most accurate method at present-MCP. The other kind are accurate robust methods-Least trimmed square regression and Quantile regression. The robustness and accuracy of new method will be proved by theory. Fast algorithm will be designed and realized. Numerical simulation experiment will be designed and is used to evaluate new method and other similar methods. These methods also be evaluated in gene expression data sets. Associated genes of gene expression data sets will be verified by knowledge from literature. By evaluation of numerical simulation experiment and actual gene expression data, the optimal variable selection method can be found to be applied in gene expression data sets with outliers.

高维数据不断涌现于生物信息学、图像处理、金融等领域,高维变量选择方法能够得到简约的模型且能够清晰地解释单变量的效应。但高维数据普遍存在异常点,使得现有不稳健方法的结果误差较大。而目前的稳健方法都是基于LASSO这种较早提出的高维变量选择方法,经证明和实践它的结果是有偏的,所以基于它的稳健方法其准确性也会较低。本研究提出新的稳健高维变量选择方法—稳健MCP(Minimax Concave Penalty)法,它是将现有准确性最高的方法—MCP法,与稳健方法中准确性高的最小截尾平方回归法和分位数回归法结合,并给出新方法稳健性和准确性的理论证明,设计该方法的快速算法并编程实现。根据实际高维数据分布特点,设定不同数值模拟场景,与其他同类方法比较优劣。并根据已有知识确立的关联基因,利用实际基因表达数据来评价各方法,从而解决含有异常点基因表达数据集的变量选择问题。

项目摘要

高通量测序技术得到的数据给高维变量选择问题带来挑战,而且很多关心的响应变量都是二分类变量,如病例与对照,疾病类型,是否复发等,这样惩罚logistic回归可以用于组学数据中,来筛选对响应变量相关的生物标记物。本研究对常用的惩罚Logistic回归进行了原理介绍,然后设定不同情境对这些方法进行比较,从而为实际应用提供参考。通过对常用的惩罚Logistic算法如LASSO、EN(Elastic Net)、SCAD(Smoothly Clipped Absolute Deviation)、MCP(Minimax Concave Penalty)以及SIS(Sure Independence Screening)等进行模拟比较,得出各方法的结果与自变量间的相关程度有关,不同惩罚logistic回归的精确性与自变量间的相关程度有关,如果相关较高,LASSO或EN的结果较好,而在相关较低时,MCP或SCAD结果较好。结合SIS的方法倾向于少选变量,误选率低,但敏感度也低,当自变量间低度相关时,SIS的三种方法结果非常接近,但相关较高时,SIS+LASSO的结果表现较好。.在组学数据中,错分样本经常发生。错分的异常点是由于漏诊或误诊,样本的异质性,实验中的技术问题等造成。这些潜在的异常点会导致病人不正确的分类,进行不适合的治疗,且会影响可靠地筛选某个疾病相关的生物标记物。本研究提出了基于最大截尾似然(Maximized Trimmed Likelihood, MTL)的稳健的LASSO(Least Absolutes Shrinkage and Selection Operator)类型的惩罚Logistic回归(MTL-LASSO),能够识别出错分的异常点,并能够使得变量选择结果稳定,得出MTL-LASSO稳健性与截尾比例密切相关。将FAST-LTS算法进行了改进,提出了适合MTL-LASSO的算法。通过模型试验得出,在没有错分样本时,MTL-LASSO的结果与LASSO相近,而当存在异常点时,LASSO受异常点的影响非常大,而MTL-LASSO的却保持稳定。加权步MTL-LASSO进一步提高了性能。本研究将MTL-LASSO应用三阴性乳腺癌基因表达数据中,识别的异常点是潜在的错分样本,该结果也由其临床检验的不一致结果和以及在关键受体上表达值所支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

DOI:10.7498/aps.67.20171903
发表时间:2018
2

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

DOI:10.5846/stxb201912262800
发表时间:2020
5

感应不均匀介质的琼斯矩阵

感应不均匀介质的琼斯矩阵

DOI:10.11918/j.issn.0367-6234.201804052
发表时间:2019

孙红卫的其他基金

相似国自然基金

1

稳健变量选择与高维数据分析

批准号:11071022
批准年份:2010
负责人:崔恒建
学科分类:A0403
资助金额:30.00
项目类别:面上项目
2

高维纵向数据的若干稳健变量选择方法研究

批准号:11401383
批准年份:2014
负责人:樊亚莉
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
3

高维数据降维和变量选择的若干稳健方法研究

批准号:11101022
批准年份:2011
负责人:赵俊龙
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
4

基于惩罚似然的变量选择方法及其在高维数据模型中的应用

批准号:71803001
批准年份:2018
负责人:朱艳玲
学科分类:G0301
资助金额:17.00
项目类别:青年科学基金项目