Recently, histopathological method has been regarded as the gold standard for cancer diagnosis and subgroup analysis in clinical practice. However, due to the molecular heterogeneity and complexity of cancer tissues, cancer subtype has different pathological structure characteristics and grading standards, which would increase the difficulty of diagnosis in practice. In regard to these problems, this study aims at identifying the cancer subgroups based on multi-omics molecular information to improve the diagnosis accuracy and therapy and prognosis. To identify molecular subgroups of cancer, it is necessary to select significant biomarkers for each subgroup and then build up the prediction model. However, for some subgourp identification, only a small number of samples have complete and accurate labels in practice. In this study, we propose to combine labeled and unlabeled samples, analyze the data with random forest model and semi-supervised analysis algorithm, select biomarkers and establish prediction model. The main research contents include semi-supervised model for subgroup identification, multi-stage algorithm for semi-supervised analysis, semi-supervised Boosting algorithm based on weight obtained from samples, variable selection method for semi-supervised analysis, molecular subgroup prediction model, and so on. This study intends to combine the method of theoretical derivation, simulation studies and real example analysis with data from colorectal cancer.
目前恶性肿瘤的诊断与亚组分型,主要使用病理组织学方法,作为临床诊断的“金标准”。然而,由于肿瘤组织结构的复杂性和分子异质性,不同类型的肿瘤具有不同的病理组织结构特征和分级标准,实际中经常难以诊断。本课题研究如何在多组学分子层面上对肿瘤进行亚组鉴别,使其与临床诊断、治疗和预后的目标相一致。对肿瘤分子亚组模式识别,需要筛选出不同亚组的生物标志物,进而得到预测模型。然而,对于有些亚组识别问题,实际中可能只有少量的样品存在亚型标签。本研究提出一种新方法,将有标签和无标签的数据混合在一起,使用随机森林(RF)模型和半监督分析算法对数据进行分析,筛选亚组生物标记物和建立预测模型。研究的主要内容:亚组识别的半监督分析模型、半监督分析的多阶段算法、基于样品权重的半监督Boosting算法、半监督分析的变量筛选方法、分子亚组预测模型等。研究拟使用理论推导、模拟实验和结直肠癌亚组实际数据分析相结合的方法进行。
本课题主要研究如何在多组学分子层面上对肿瘤进行亚组鉴别,使其与临床诊断、治疗和预后的目标相一致。项目针对如何将有标签和无标签的数据混合在一起分析的问题,展开了多方面的研究,主要给出了使用随机森林(RF)模型对数据进行一致性聚类和分型分析方法;提出一种新的基于分层图随机神经网络(HiRAND)的半监督特征选择和分类预测的策略,用于解决具有小样本标签(如)的标志物筛选和分类预测问题。研究给出了相应的算法和计算程序,模拟实验和实例表明其可以有效地用于分子分型、变量筛选和分类预测。同时,在肿瘤分子亚组识别关联方法研究和应用方面,对多种高维组学方法进行了研究,并实际给出了多个具有潜在生物学意义的标志物,为实验科学提供了多项有意义的结果,已按期完成课题的计划。研究的主要成果:以通讯作者(共同)发表相关论文25篇(标注基金号),其中发表SCI论文17篇,中国核心期刊发表8篇;完成了新算法的多组学分析软件平台的研制。同时,培养博士研究生5名、硕士研究生8名,参加国内学术会议21人次,国际会议2人次。目前,相关的研究工作继续深入开展,课题组在2020年获得1项国家自然科学基金项目,同时2021年作为合作单位承担科技部重大项目子课题1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于图的半监督学习最优化模型及算法研究
基于图的半监督学习算法研究
基于认知半监督持续学习的连续语音识别方法研究
基于健康数据分析的半监督在线学习血糖预报建模算法研究