The association studies on tumor susceptibility variants and mutations is one of the most important aspects in cancer research, and it is also one of the core modules in cancer sequencing data processing pipeline. The existing methods have some defects in handling the tumor heterogeneity, complex clonal structure, multiple-value phenotype and bi-clustering association on partial deminsions of phenotypes. This proposal is designed for these problems and issues. According to the actual problems, the project plans to carry out the research in the following three aspects: first, the correlation analysis model on the basis of existing, the introduction of multi baryon clonal structure, then distinguish different sub clones with somatic mutations, especially given based on the evolutionary relationship between clones, is associated with the design identification of susceptibility to somatic mutation of complex sub clonal structure analysis method. Second, to further consider the interaction of blood tumor genome variation and somatic mutation, interaction of mixed somatic mutations superimposed on the blood line variation analysis, one of the main considerations will interact on each sub cloning into the "aggregation" of rare variants, focus on improving the variation correlation analysis method on blood system the sensitivity and specificity of selection. Third, the design for two-way clustering algorithm in association analysis and efficient implementation of synchronization, cluster aggregation and multi dimension rare variant phenotype selection, to solve the associations of rare variants in recognition of phenotype identification problem dimension.
肿瘤的易感性变异关联研究是肿瘤组学研究的重要方向之一,也是肿瘤组学数据处理流程的核心计算模块之一。现有方法在处理肿瘤异质性、复杂子克隆结构、非二值表型和双向关联方面存在一定缺陷。本项目拟针对此实际问题,在以下三个方面开展研究:其一,在既有关联分析模型的基础上,引入多重子克隆结构,进而区分不同子克隆携带的体细胞突变,特别是在考虑子克隆的演化关系的基础上,设计适用于复杂子克隆结构的识别易感性体细胞突变的关联分析方法。其二,进一步考虑肿瘤基因组血系变异与体细胞突变的相互作用,对混合的体细胞突变叠加于血系变异的相互作用进行解析,将各个子克隆上的相互作用提炼为“聚合”罕见变异的主要考量之一,重点提高关联分析方法对血系变异的选取敏感性和特异性。其三,设计适用于关联分析问题的、高效的双向聚类算法,实现对罕见变异聚合和表型多维度选取的同步聚类,解决识别部分罕见变异的组合关联于部分表型维度的识别问题。
基因突变的关联分析是基因组学和生物信息学中的一类基础问题。现有的关联分析模型和算法不能满足针对癌症样本的突变关联分析需求。本项目经过研究,针对不同的应用场景,提出了一系列适用于复杂子克隆结构的识别易感性体细胞突变的关联分析方法;设计了小样本下求解组学特征的集合内/间共生、互斥模式的启发式方法,并通过隐马尔可夫随机场模型将多克隆结构、特征互作用等互作用分析结果引入罕见变异的聚合关联分析模型中,同时基于先验知识、互作用条件等设计了解空间限界;设计并实现了求解多维、非二值表型的关联分析模型的智能寻优算法:针对不同数据的特点,提出了对耦合模式表达式不同的编码方法,分别结合连续、离散优化的性质,构建了基于粒子群、鱼群思想的群体智能寻优框架;改进并融合了集成学习策略,使用较少的训练样本指导群体智能框架的快速迭代,降低算法落入局部最优陷阱的概率,实现特征间近似最优耦合关系的有效识别,最终实现了识别部分罕见变异的组合关联于部分表型的关联分析功能。本项目研究的科学意义体现在:从理论研究成果看,围绕肿瘤组学大数据的采集、分析、关联分析与智能决策开展了比较深入的理论研究工作,初步探索和建立了面向肿瘤组学数据的特征提取与数据质控、超高维关联分析建模、风险预警与动态决策的数据挖掘框架,对丰富和发展临床决策支持的理论与方法体系具有一定的科学意义;从国际科技合作看,项目团队面向世界科技前沿,深入参与TCGA、ICGC等国际大科学计划,综合运用数据分析技术和智能决策方法,较好的解决了云环境下的群体低频关键特征识别、有限异质样本的超高维关联分析、早期风险预警等问题,取得了一些创新性的研究成果,初步得到国际同行的认可。经过三年的研究工作,本项目超额完成预期指标,在执行期内发表SCI检索的期刊论文5篇(包括1篇Nature Communications),EI检索的论文4篇,申请国家发明专利5项,申请计算机软件著作权登记5项;参加国内会议4人次并作报告;培养博士研究生2人,硕士研究生4人。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
基于铁路客流分配的旅客列车开行方案调整方法
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
新型树启发式搜索算法的机器人路径规划
复杂多视图高维数据子空间聚类方法研究
基于复杂网络的商务大数据聚类与关联应用研究
基于双向聚类算法的高通量组学数据融合方法研究
基于合作式的多视图数据深度子空间聚类的研究