Whole genome sequencing is the latest laboratory process for determining causative genetic variants underlying human inherited diseases. Through the sequencing of complete DNA sequences of individuals, all possible genetic variants in a population or pedigree can be detected, and thus the precise identification of pathogenic variants is enabled. Nevertheless, a significant proportion of sequenced variants are in very low frequency or even occur de novo, restricting the direct application of traditional statistical genetics approaches to the analysis of whole genome sequencing data and appealing for new bioinformatics approaches. Targeting on this demand, we propose to develop novel methods for analyzing whole genome sequencing data via the integration of genetic and genomic information. We first rely on genomic annotations to define functional regions in DNA and then integrate publically available genetic data and phenotype similarity information to infer associations between these regions and human diseases. Then, we integrate sequence conservation features and deleterious annotations to predict functionally damaging effects of genetic variants across the whole genome. Finally, we develop novel statistic models to integrate such information as whole-genome genetic variants, associations between genomic functional regions and the disease under investigation, and deleterious scores of the variants to pinpoint disease-causing genetic variants. We will summarize research results as two databases and a set of software, demonstrate their applications via the analysis of two real data sets for Abdominal Aortic Aneurysm (AAA) and Spinocerebellar ataxia (SCA), thereby promoting the application of the whole genome sequencing technique in clinic studies and providing reference to the application of theory and methods in information science to solving important scientific questions in life sciences.
全基因组测序是近年来兴起的高通量生物实验技术,通过检测基因组上所有可能的遗传变异再辅以统计遗传学分析,实现对致病变异的精确定位。而测序数据包含大量低频罕见变异的特点却使得已有统计方法难以有效应用,亟需研究新的生物信息学分析手段。针对这一问题,本项目提出整合遗传学与基因组学信息的全基因组测序数据分析方法。首先根据基因组注释定义基因组功能区域,整合公开遗传学数据和表型相似性信息推断这些区域与疾病的关联评分。然后集成多种基因组序列保守性和变异有害性注释获得人类全基因组变异有害性预测。最后整合全基因组遗传变异、基因组区域与疾病关联评分、变异有害性预测三种信息建立新的全基因组测序数据分析方法。项目预期成果将汇总为两个数据库和一套分析软件,通过腹主动脉瘤和小脑萎缩症两套实验数据开展综合示范应用研究,从而推动全基因组测序技术的实用化,为运用信息科学的理论与方法解决生命科学的关键问题提供有益借鉴。
全基因组测序是近年来兴起的高通量生物实验技术,通过检测基因组上所有可能的遗传变异再辅以统计遗传学分析,实现对致病变异的精确定位。而测序数据包含大量低频罕见变异的特点却使得已有统计方法难以有效应用,亟需研究新的生物信息学分析手段。针对这一问题,本项目提出研究整合遗传学与基因组学信息的全基因组测序数据分析方法。在基金资助下,本项目顺利开展,完成了预期目标,所取得的主要成果包括:(1) 建立了全基因组遗传变异及其功能注释数据库,为进一步推断全基因组遗传变异与疾病的相关性提供了丰富的数据资源和实用的注释工具。(2) 发展了多个集成遗传学与基因组学数据的生物信息学分析方法,应用于发现胸主动脉瘤等疾病的致病基因和致病遗传变异。(3) 发展了一套整合基因组序列与组学数据的深度学习方法论,应用于解析基因调控模式,进而应用于解释冠状动脉心脏病的致病遗传变异及其致病机制。项目组基于这些研究成果开发了一批在线软件,并在整合疾病临床表型、医学影像、遗传学数据的全链条分析方法方面进行了有益的探索。基于这些研究成果,项目组发表了SCI检索期刊论文20篇,项目组成员多次在国际顶级学术会议和国内外知名学术机构作学术报告,从而为在基础生物学研究和临床医疗应用中推广全基因组测序技术,为运用信息科学的理论与方法解决生命科学的关键问题提供有益借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形维数和支持向量机的串联电弧故障诊断方法
基于全模式全聚焦方法的裂纹超声成像定量检测
工业萝卜泡菜发酵过程中理化特性及真菌群落多样性分析
环境信息披露会影响分析师盈余预测吗?
基于全基因组测序建立病毒拷贝数和整合位点的生物信息学方法及数据分析
多重耐药鲍曼不动杆菌全基因组测序和“耐药岛”的比较基因组学分析
基于全基因组外显子测序的中国汉族海洛因依赖遗传学分析
基于数据整合的计算癌症基因组学研究