The prognosis for a cancer includes the expected duration and the likely outcomes of this kind of disease, and is a hotspot in bioinformatics researches. Since Brown and his colleagues developed microarray system in 1995, researchers can monitor the expression of thousands of genes simultaneously. Different biological events in cell are closely associated with gene expression. Therefore, Gene expression profiling (GEP) becomes a powerful technique for exploring global expression patterns of cells, and is widely applied to seek biomarkers of cancers for well understanding the pathogenetic mechanism at molecular level. Therefore, it is important to create the prediction models for cancer prognosis and improve the prediction accuracy of them based on gene expression data. MAQC-II project, which was launched by U.S. Food and Drug Administration, investigated more than 30,000 predictive models generated by 36 independent research groups and found that the prediction accuracy is not satisfied for some complex cancers. For example, the AUC of predicting the overall survival of multiple myeloma patients was only 0.615. .The complexity of clinical cancer samples will greatly impact the detection results of microarray gene chip and will also lower the prediction ability of the models. In this project, we will separate the gene expression profiles of cancer cells from the clinical samples by using multivariate calibration and resolution methods at the first step. Then, the differentially expressed genes related with cancers will be enriched by biological statistics and the analysis of gene function. Finally, the prediction models for the prognosis of three complex cancers, which were selected in MAQC project, were rebuilt with the gene lists highly related with cancers. We expected these new models to achieve the better outcomes.
癌症的预后是针对癌症可能的病程及治疗结果的预测,是近年来生物信息学的研究热点。微阵列基因芯片技术的问世,为各类癌症分子水平的研究提供了有效的方法,因此,建立基于基因表达的癌症预后模型及提高模型的预测能力是亟待解决的关键问题。美国食品和药物管理局发起的MAQC-II项目,对基于基因表达谱的共30,000多个预测模型进行考察,发现对于一些复杂癌症,模型预测能力不足,例如对多发性骨髓瘤病人存活率预测结果的AUC值仅为0.615。.癌症样本的复杂性对基因表达谱的检测结果有很大的影响,进而干扰模型的预测能力。本项目拟采用多元分辨与校正的方法,对于不同类别癌症,分别从其复杂样本基因表达数据中对肿瘤细胞表达谱进行分离,降低非肿瘤细胞造成的干扰;进而结合生物统计方法与基因功能分析,筛选对应类别癌症的特征基因;最后利用模式识别的方法,重建预测模型,以期提高MAQC项目中三类复杂癌症的预后结果。
微阵列芯片技术已被广泛用于癌症可能的病程及治疗结果的预测(及癌症预后)当中,为各类癌症分子水平的研究提供了有力工具。因此,建立基于基因表达的预测模型用于各类癌症预后的预测以及如何提高模型的预测能力,成为了亟待解决的问题。有效解决该类问题,有助于推动基因组学技术在临床医学转化中的应用以及个性化医疗的进程。本项目主要针对由临床癌症样本的复杂性所引起的模型预测能力不足问题,展开如下研究:1)探索由于样本中混合细胞类型引起的模型预测能力降低问题;2)探索由于特征基因集中包含过多“假阳性”基因引起的模型稳健性降低问题;3)探索在癌变过程中引起基因表达改变的原因。.针对临床组织样本的混合细胞中特定细胞类型基因表达谱的分离问题,项目组通过筛选,发现非负矩阵分解算法能够很好的从混合细胞基因表达谱中分离出各组织细胞的纯基因表达谱。该方法对来自大鼠脑、肝脏及肺部三类组织的混合样本基因表达谱数据进行分解,所提取的单个组织的基因表达谱与实验测定的纯组织表达谱进行比较,相关系数均高于0.97。在临床样本的分析中,该方法通过对肾脏移植病人全血样本基因表达谱的分解,分别计算出样本中5类主要细胞的纯基因表达谱,随后分别比较这5类细胞在两类病人样本中的基因表达的差异,找到了一系列差异性表达基因,最后通过基因功能分析,发现这些基因与肾脏移植急性排斥确实存在显著关联,从而提高了临床分析的准确性。在去除“假阳性”基因方面,项目组分别尝试了基于基因相似性、网络算法以及非参数变量筛选的方法对特征基因集中的基因进行筛选,发现基于网络的方法以及基于非参数变量筛选的方法能有效地减少特征基因集中的基因的数目,有利于提高模型的稳健性,并且确了最终用于建模的基因与病症有显著的关联。最后的预测结果亦表明,模型的预测能力有了明显的提高。在探索癌变过程中引起基因表达改变的原因方面,项目组通过对12个与乳腺癌、脑瘤、糖尿病等疾病相关的基因组关联分析数据集的统计分析,发现了286个与疾病相关的单核苷酸突变位点,即这些突变出现在与miRNA结合区域有可能使得该基因与某类疾病的产生或发展相关联。与此同时,项目组还发现采用不同的统计方法对找到的基因功能进行分析,得到的结果不尽相同,为了确保临床分析的准确性,我们进一步探讨了不同的统计方法对于基因功能分析结果的影响。此外,项目组在方法的拓展应用上亦作了初步的探索。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
山核桃赤霉素氧化酶基因CcGA3ox 的克隆和功能分析
Wnt 信号通路在非小细胞肺癌中的研究进展
抗生素在肿瘤发生发展及免疫治疗中的作用
零样本学习综述
复杂体系和化学过程的化学计量学解析与应用研究
化学计量学在电化学波谱解析中的应用
过程拉曼光谱化学计量学解析与校正模型的构建及转移方法研究
基于尿液miRNAs差异表达谱的膀胱癌诊断和分期预测模型构建及临床应用研究