基于集成学习的高维癌症基因微阵列数据分析方法研究

基本信息
批准号:61100106
项目类别:青年科学基金项目
资助金额:22.00
负责人:刘昆宏
学科分类:
依托单位:厦门大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:吴清锋,刘国彦,谢书童,吴清强,王美红,苏淑文,童牧晨玄,王文杰,张才东
关键词:
多分类器集成学习系统进化计算特征选择肿瘤基因表达数据
结项摘要

肿瘤是一种目前还未明确发病机理的严重危害人类生命健康的分子疾病,而基因微阵列技术为从分子水平上研究其发病机理与临床诊断方法提供了强有力的手段。本课题重点研究基于肿瘤基因表达谱的数据分析方法,针对基因数据高维小样本的特点,设计基于多重编码进化计算的多分类器集成学习系统,分析完备基因数据集,挖掘具有最高分类性能的最小基因子集,并判定癌症类型,为肿瘤分类模型构建、致癌基因分析与调控通路分析提供基础。拟构造基于特征的差异度测度,结合与分类器无关的特征选择算法理论,并针对样本数不均衡问题设计算子,从而搜索与分类界面无关的可靠基因表达模式组合,进而深入探讨致癌基因的相互调控作用。并将结合流形学习等非线性降维方法,实现数据的可视化分析,以此为基础设计系统仿真诊断软件,从而为促进肿瘤基因组学和药物基因组学的进一步研究打下基础。

项目摘要

本项目主要围绕针对癌症基因微阵列数据的高维小样本特点,结合进化算法,设计并实现了多个集成学习算法框架,实现有效的数据分析;此外还对相关医学领域进行了跨学科领域的探讨,主要的成果为:1、基于最高得分基因对(Top Score Pairwise)方法,设计了基于遗传算法的支持向量机集成选择算法(GA-ESP)系统框架,可以有效对基因数据进行关键基因筛选与类别判定,具有良好的推广能力。2、基于厦门市中山医院的癌症病例样本进行组织芯片数据分析,使用不同特征选择方法,针对不同癌症患者样本的肿瘤瘤内与瘤旁基因表达差异进行挖掘,总结出TP53基因在不同癌症中的调控作用。3、设计了一种局部线性表示Fisher的流形学习方法(LLRFC),分别从不同类癌症基因数据抽取k近邻数据构建类间图、同类基因抽取k近邻数据构建类内图,之后用局部最小线性重构方法优化两个图的权重,并用Fisher判决条件搜索一个低维子空间,同时最小化类内图与类外图的重构错误率,从而获得较理想的降维效果。4、设计了基于遗传规划的集成学习系统构造方法,并以此为基础对决策树进行了集成,形成GPES集成学习系统。在基于两类与多类基因微阵列数据分析的实验中发现该算法与一些经典的集成学习算法相比,如随机森林、旋转森林等,具有更好的推广能力和稳健性。5、设计了两种算法对传统ECOC编码方法进行多级集成,构建了E-ECOC集成学习系统,用以癌症基因微阵列数据进行了分类判别,分析基因在多种癌症之间的差异进行分析。设计了基于输出纠错编码差异度分析的测度,用于指导生成具有高差异度的集成学习系统。经过改进的ECOC编码应用与基因数据分析上能取得较好的识别率。此外,在其余领域取得的成果包括:1、基于随机森林设计了一种混合集成学习模型,对白血病研究的相关论文文献情况进行分析,构造了具有克服不均衡样本问题,对文献的分类获得了理想效果。2、基于模糊聚类算法进行了改进,设计了一种基于模糊空间聚类的算法,对实际的石油地震数据与人工空间数据进行聚类,与传统计算方法相比降低了算法复杂度,同时有效提升了聚类效果。3、提出了一种基于局部混合层集方法构建3D血管模型,结合了局部区域信息与边界信息,用于血管边缘分割,从而实现微细血管结构的精确抽取。4、引入局部适应二进制能量方程实现混合层集合算法框架,有效实现局部信息的抽取,更好的实现了不均衡分布的血管图像分割。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

路基土水分传感器室内标定方法与影响因素分析

路基土水分传感器室内标定方法与影响因素分析

DOI:10.14188/j.1671-8844.2019-03-007
发表时间:2019
3

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
4

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
5

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016

刘昆宏的其他基金

批准号:61772023
批准年份:2017
资助金额:48.00
项目类别:面上项目

相似国自然基金

1

基于集成学习的基因微阵列数据特征选择和癌症分类研究

批准号:11601412
批准年份:2016
负责人:殷清燕
学科分类:A0602
资助金额:19.00
项目类别:青年科学基金项目
2

高维不平衡数据的集成学习算法研究

批准号:11526161
批准年份:2015
负责人:殷清燕
学科分类:A0602
资助金额:3.00
项目类别:数学天元基金项目
3

基于不平衡、不完备、高维小样本数据的集成学习故障诊断方法研究

批准号:51105291
批准年份:2011
负责人:汪庆华
学科分类:E0503
资助金额:23.00
项目类别:青年科学基金项目
4

基于高维大规模数据的集成建模方法的研究

批准号:61473072
批准年份:2014
负责人:毛志忠
学科分类:F0303
资助金额:80.00
项目类别:面上项目