Big data, especially the precision medicine, undoubtedly is one the most frequently talked words in the world today. Precision medicine, the essence is to admit the heterogeneity among patients and utilize the big data to identify the difference between individuals, to conduct individualized treatment finally. However, the heterogeneity is a problem which exists widely in the heath and medical community, but hard to be quantified, in particular for the cancer research, because of the complicated pathomechanism of tumor. Two patients with the same cancer but belonging to the different subtypes may have completely different epidemiological risk factors, developing processes or treatment reflections, so precisely identifying the patients’ subtypes is vital to distinguishing the biomarkers and applying the precision medicine. The literature show that ER negative breast cancer patients are a population of high heterogeneity, which includes at least three subtypes. In this proposal, we will describe the subtype identification problem as a mixture model and utilize the variable selection techniques, to develop a statistical learning algorithm which could cluster the heterogeneous population into sub-populations, and within every sub-population, the individuals show high homogeneity in term of risk factors and the functions related to the survival times. Based on the sub-populations, we will define the criteria of subtyping for ER negative breast cancer patients and propose the prognostic models, to display the relationship between risk factors and survival for each subtype.
大数据,特别是精准医学无疑是当前社会的高频词汇之一。精准医疗的本质即承认患者之间的个体差异,利用大数据所反映的患者信息识别个体之间的差异,从而倡导个性化治疗。异质性是医学上普遍存在而又难以量化区分的问题,尤其对于病理复杂的恶性肿瘤来说,具有不同分型的患者在流行病学危险因素、疾病自然进程及治疗反应等方面都不尽相同,因此,根据致病机理和疾病发展程度对患者进行精准分型,对于准确寻找药物靶点、实施精准治疗至关重要。以往研究表明ER-型乳腺癌患者是具有高度异质性的群体,至少包含三个致病机理完全不同的亚型。本项目将以ER-型乳腺癌患者为研究对象,把肿瘤的分型问题描述为统计学上的混合模型,结合变量选择算法,探索一套处理异质性总群的亚型区分算法,使亚群内部在风险因素、治疗反应和预后等方面具有高度一致性,并据此定义乳腺癌的分型标准,构建分型预后模型,为探索乳腺癌的复杂致病机理,实施精准治疗提供理论支持。
精准医疗概念的提出使人们更加关注个体之间的差异性。传统疾病的种类划分通常以肿瘤发病的位置为根据,如乳腺癌,肺癌等,但肿瘤的发生是由免疫系统紊乱引发的系列复杂反应。由于我们对引起紊乱的机制尚不清晰,同类疾病通常包含多个不同的亚型,具有不同亚型的患者在流行病学危险因素、疾病自然进程及治疗反应等方面都不尽相同,识别患者的亚型对于实施精准治疗,改进疾病预后至关重要。本项目以乳腺癌研究为切入点,运用统计学模型对肿瘤病人的分型问题进行研究,结合高维数据变量选择问题,提出了一套针对高维异质总群的亚型区分算法,为探索复杂疾病的机理,实施精准治疗提供方法学支持。我们具体进行了以下三个方面的研究:(1) 收集了十个常见的乳腺癌公开数据集,重建了八个与免疫相关的预后预测模型,并对各模型在各数据集上的表现进行了汇总比较和临床指标分层分析。经进一步检索,确定了32个可用于预后预测模型研究的GEO数据集,经规范化预处理,建立了一个包含4970例乳腺癌患者的研究数据库;(2) 为了同时处理数据的异质性和高维数据变量选择问题,我们在比例风险混合模型下提出了一套正则化的统计学建模方法,可以在对混合元重要影响因子进行变量选择的同时对样本归类,进行亚型划分。在适度的条件假设下,我们证明了模型估计量具有优良的统计学性质,并且通过随机模拟和实例分析验证了该方法在亚组划分、重要因子选取和预测响应变量方面与同类方法相比具有优越性;(3) 通过EM算法得到的混合模型估计量具有不稳定的特点,算法的收敛值依赖于初始值的选择,且当数据呈现高度异质性即混合元的个数越来越多时,这种现象变得愈加明显,严重困扰实际数据分析。在完成本项目研究内容的基础上,我们对如何在数据呈现高度异质性的情况下给出稳定的模型解进行了探索性研究,通过减少混合元的个数和使用非参数假设增加了解的稳定性。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
高维不平衡数据的集成学习算法研究
高维时间序列的数据挖掘算法及应用研究
高维流式大数据的增量特征提取算法研究
大数据环境下高维数据流挖掘算法及应用研究