整合遗传学与基因组学信息的全基因组测序数据分析方法

基本信息
批准号:61573207
项目类别:面上项目
资助金额:67.00
负责人:江瑞
学科分类:
依托单位:清华大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:程超,刘莉扬,吴佳欣,马士宁,吕周延,朱丛敏,曾婉雯,李连硕,吴蒙蒙
关键词:
基因组学信息全基因组测序遗传变异关联检验遗传学信息
结项摘要

Whole genome sequencing is the latest laboratory process for determining causative genetic variants underlying human inherited diseases. Through the sequencing of complete DNA sequences of individuals, all possible genetic variants in a population or pedigree can be detected, and thus the precise identification of pathogenic variants is enabled. Nevertheless, a significant proportion of sequenced variants are in very low frequency or even occur de novo, restricting the direct application of traditional statistical genetics approaches to the analysis of whole genome sequencing data and appealing for new bioinformatics approaches. Targeting on this demand, we propose to develop novel methods for analyzing whole genome sequencing data via the integration of genetic and genomic information. We first rely on genomic annotations to define functional regions in DNA and then integrate publically available genetic data and phenotype similarity information to infer associations between these regions and human diseases. Then, we integrate sequence conservation features and deleterious annotations to predict functionally damaging effects of genetic variants across the whole genome. Finally, we develop novel statistic models to integrate such information as whole-genome genetic variants, associations between genomic functional regions and the disease under investigation, and deleterious scores of the variants to pinpoint disease-causing genetic variants. We will summarize research results as two databases and a set of software, demonstrate their applications via the analysis of two real data sets for Abdominal Aortic Aneurysm (AAA) and Spinocerebellar ataxia (SCA), thereby promoting the application of the whole genome sequencing technique in clinic studies and providing reference to the application of theory and methods in information science to solving important scientific questions in life sciences.

全基因组测序是近年来兴起的高通量生物实验技术,通过检测基因组上所有可能的遗传变异再辅以统计遗传学分析,实现对致病变异的精确定位。而测序数据包含大量低频罕见变异的特点却使得已有统计方法难以有效应用,亟需研究新的生物信息学分析手段。针对这一问题,本项目提出整合遗传学与基因组学信息的全基因组测序数据分析方法。首先根据基因组注释定义基因组功能区域,整合公开遗传学数据和表型相似性信息推断这些区域与疾病的关联评分。然后集成多种基因组序列保守性和变异有害性注释获得人类全基因组变异有害性预测。最后整合全基因组遗传变异、基因组区域与疾病关联评分、变异有害性预测三种信息建立新的全基因组测序数据分析方法。项目预期成果将汇总为两个数据库和一套分析软件,通过腹主动脉瘤和小脑萎缩症两套实验数据开展综合示范应用研究,从而推动全基因组测序技术的实用化,为运用信息科学的理论与方法解决生命科学的关键问题提供有益借鉴。

项目摘要

全基因组测序是近年来兴起的高通量生物实验技术,通过检测基因组上所有可能的遗传变异再辅以统计遗传学分析,实现对致病变异的精确定位。而测序数据包含大量低频罕见变异的特点却使得已有统计方法难以有效应用,亟需研究新的生物信息学分析手段。针对这一问题,本项目提出研究整合遗传学与基因组学信息的全基因组测序数据分析方法。在基金资助下,本项目顺利开展,完成了预期目标,所取得的主要成果包括:(1) 建立了全基因组遗传变异及其功能注释数据库,为进一步推断全基因组遗传变异与疾病的相关性提供了丰富的数据资源和实用的注释工具。(2) 发展了多个集成遗传学与基因组学数据的生物信息学分析方法,应用于发现胸主动脉瘤等疾病的致病基因和致病遗传变异。(3) 发展了一套整合基因组序列与组学数据的深度学习方法论,应用于解析基因调控模式,进而应用于解释冠状动脉心脏病的致病遗传变异及其致病机制。项目组基于这些研究成果开发了一批在线软件,并在整合疾病临床表型、医学影像、遗传学数据的全链条分析方法方面进行了有益的探索。基于这些研究成果,项目组发表了SCI检索期刊论文20篇,项目组成员多次在国际顶级学术会议和国内外知名学术机构作学术报告,从而为在基础生物学研究和临床医疗应用中推广全基因组测序技术,为运用信息科学的理论与方法解决生命科学的关键问题提供有益借鉴。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
3

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
4

工业萝卜泡菜发酵过程中理化特性及真菌群落多样性分析

工业萝卜泡菜发酵过程中理化特性及真菌群落多样性分析

DOI:10.13995/j.cnki.11-1802/ts.028275
发表时间:2022
5

环境信息披露会影响分析师盈余预测吗?

环境信息披露会影响分析师盈余预测吗?

DOI:
发表时间:2017

相似国自然基金

1

基于全基因组测序建立病毒拷贝数和整合位点的生物信息学方法及数据分析

批准号:81770205
批准年份:2017
负责人:黄金艳
学科分类:H0810
资助金额:55.00
项目类别:面上项目
2

多重耐药鲍曼不动杆菌全基因组测序和“耐药岛”的比较基因组学分析

批准号:30970113
批准年份:2009
负责人:俞云松
学科分类:C0108
资助金额:36.00
项目类别:面上项目
3

基于全基因组外显子测序的中国汉族海洛因依赖遗传学分析

批准号:81571856
批准年份:2015
负责人:魏曙光
学科分类:H2502
资助金额:60.00
项目类别:面上项目
4

基于数据整合的计算癌症基因组学研究

批准号:61379092
批准年份:2013
负责人:张世华
学科分类:F0213
资助金额:77.00
项目类别:面上项目