The emergence and development of complex diseases is caused by the interactions among multiple genetic factors. Investigating the key genetic features and their association patterns from multi-omics genetic data can facilitate the analysis and treatment of complex diseases. Existing solutions for complex disease association analysis are often susceptible to noises and lack of effective use of cross-level genetic interactions. Given that, this project investigates multi-level data integrative approaches for complex disease association analysis. In the sequence level, multiple classifiers are employed and combined to obtain critical interaction locus from high-dimensional genomic data. In the expression level, ensemble co-clustering is used to explore disease related co-expression patterns and to acquire critical genetic information. After that, a multi-level heterogeneous genetic association network is constructed based on critical features from different genetic levels, and a blocked tri-random walk based information propagation method is introduced to dynamically leverage the complementary information between these levels, and thus to more precisely disclose the genetic association pattern of complex diseases. This project can deepen and expand the research and application of machine learning in big biological data analysis. It also has application values for genetic association analysis and adjuvant therapy for complex diseases.
复杂疾病发生发育是多种遗传因素共同作用的结果。对不同遗传层次产生的组学数据中包含的关键特征及它们间关联模式的挖掘能够指导复杂疾病的分析和治疗。针对现有方法容易受噪声影响,对跨层次遗传互作效应缺乏有效利用等问题,本项目研究基于多层次数据整合的遗传关联分析方法。首先针对高维基因组序列数据设计多分类器混合集成方法,获取序列层面的关键特征位点集合;在表达数据上设计双聚类集成策略识别疾病关联共表达模块,提取表达层面关键信息;最后,整合不同层次不同类型的遗传特征构建多层次异构遗传关联特征网络,并设计基于组块化三元随机游走的信息传播模型,通过网络中各层次间信息的动态互补准确挖掘复杂疾病的遗传关联模式。本项目研究能深化并拓展面向生物大数据分析的机器学习理论与应用研究,在复杂疾病遗传分析和辅助治疗等方面也具有应用价值。
复杂疾病发生发育是多种遗传因素共同作用的结果。对不同遗传层次产生的组学数据中包含的关键特征及它们间关联模式的挖掘能够指导复杂疾病的分析和治疗。针对现有方法容易受噪声影响,对跨层次遗传互作效应缺乏有效利用等问题,本项目研究基于多层次数据整合的遗传关联分析方法。.项目研究中1)针对高维基因组序列数据设计了基于筛选-搜索的两阶段高阶SNP互作位点识别方法,并在此基础上提出了基于多分类器混合集成的计算方法,提高了序列层面的关键特征位点集合的识别精度和效率;2)在转录层面的表达谱和RNA-Seq数据上设计基于整合多/双聚类和多视图多双聚类的疾病关联共表达模块识别方法,提高了共表达模块的识别精度,并应用到癌症亚型的分类应用中;3)提出了蛋白质负样例构建策略和基于深度学习的蛋白质及其亚型相互作用网络预测方法,增加了现有遗传网络的信息含量,并基于现有遗传特征网络,提出了多种基于标签传播策略的蛋白质功能预测方法,极大地提升了复合特征网络的信息覆盖度;4)通过多层次异构遗传关联特征网络整合不同层次不同类型的遗传特征,通过网络中各层次间信息的动态互补,提出了多种基于遗传信息整合的疾病关联协同驱动通路识别方法和lncRNA-疾病关联预测方法,提高了复杂疾病的遗传关联模式的识别精度;5)项目还在多模态哈希学习和多视图学习领域进行了扩展研究,提出了多种面向大规模哈希检索的计算策略和多视图多示例多标记学习方法,推动了机器学习理论的研究。.本项目研究深化并拓展面向生物大数据分析的机器学习理论与应用研究,在复杂疾病遗传分析和辅助治疗等方面也具有良好的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
复杂疾病关联分析中高维遗传数据的统计推断
复杂疾病的单体型关联分析方法
泛全基因组关联分析:人类复杂疾病全基因组关联分析的整合研究
整合多组学数据的复杂性状关联分析与分子设计新方法研究