整合遗传学与基因组学信息的全基因组测序数据分析方法

基本信息

批准号：61573207

项目类别：面上项目

资助金额：67.00

负责人：江瑞

学科分类：

依托单位：清华大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：程超,刘莉扬,吴佳欣,马士宁,吕周延,朱丛敏,曾婉雯,李连硕,吴蒙蒙

关键词：

基因组学信息全基因组测序遗传变异关联检验遗传学信息

结项摘要

Whole genome sequencing is the latest laboratory process for determining causative genetic variants underlying human inherited diseases. Through the sequencing of complete DNA sequences of individuals, all possible genetic variants in a population or pedigree can be detected, and thus the precise identification of pathogenic variants is enabled. Nevertheless, a significant proportion of sequenced variants are in very low frequency or even occur de novo, restricting the direct application of traditional statistical genetics approaches to the analysis of whole genome sequencing data and appealing for new bioinformatics approaches. Targeting on this demand, we propose to develop novel methods for analyzing whole genome sequencing data via the integration of genetic and genomic information. We first rely on genomic annotations to define functional regions in DNA and then integrate publically available genetic data and phenotype similarity information to infer associations between these regions and human diseases. Then, we integrate sequence conservation features and deleterious annotations to predict functionally damaging effects of genetic variants across the whole genome. Finally, we develop novel statistic models to integrate such information as whole-genome genetic variants, associations between genomic functional regions and the disease under investigation, and deleterious scores of the variants to pinpoint disease-causing genetic variants. We will summarize research results as two databases and a set of software, demonstrate their applications via the analysis of two real data sets for Abdominal Aortic Aneurysm (AAA) and Spinocerebellar ataxia (SCA), thereby promoting the application of the whole genome sequencing technique in clinic studies and providing reference to the application of theory and methods in information science to solving important scientific questions in life sciences.

全基因组测序是近年来兴起的高通量生物实验技术，通过检测基因组上所有可能的遗传变异再辅以统计遗传学分析，实现对致病变异的精确定位。而测序数据包含大量低频罕见变异的特点却使得已有统计方法难以有效应用，亟需研究新的生物信息学分析手段。针对这一问题，本项目提出整合遗传学与基因组学信息的全基因组测序数据分析方法。首先根据基因组注释定义基因组功能区域，整合公开遗传学数据和表型相似性信息推断这些区域与疾病的关联评分。然后集成多种基因组序列保守性和变异有害性注释获得人类全基因组变异有害性预测。最后整合全基因组遗传变异、基因组区域与疾病关联评分、变异有害性预测三种信息建立新的全基因组测序数据分析方法。项目预期成果将汇总为两个数据库和一套分析软件，通过腹主动脉瘤和小脑萎缩症两套实验数据开展综合示范应用研究，从而推动全基因组测序技术的实用化，为运用信息科学的理论与方法解决生命科学的关键问题提供有益借鉴。

项目摘要

全基因组测序是近年来兴起的高通量生物实验技术，通过检测基因组上所有可能的遗传变异再辅以统计遗传学分析，实现对致病变异的精确定位。而测序数据包含大量低频罕见变异的特点却使得已有统计方法难以有效应用，亟需研究新的生物信息学分析手段。针对这一问题，本项目提出研究整合遗传学与基因组学信息的全基因组测序数据分析方法。在基金资助下，本项目顺利开展，完成了预期目标，所取得的主要成果包括：(1) 建立了全基因组遗传变异及其功能注释数据库，为进一步推断全基因组遗传变异与疾病的相关性提供了丰富的数据资源和实用的注释工具。(2) 发展了多个集成遗传学与基因组学数据的生物信息学分析方法，应用于发现胸主动脉瘤等疾病的致病基因和致病遗传变异。(3) 发展了一套整合基因组序列与组学数据的深度学习方法论，应用于解析基因调控模式，进而应用于解释冠状动脉心脏病的致病遗传变异及其致病机制。项目组基于这些研究成果开发了一批在线软件，并在整合疾病临床表型、医学影像、遗传学数据的全链条分析方法方面进行了有益的探索。基于这些研究成果，项目组发表了SCI检索期刊论文20篇，项目组成员多次在国际顶级学术会议和国内外知名学术机构作学术报告，从而为在基础生物学研究和临床医疗应用中推广全基因组测序技术，为运用信息科学的理论与方法解决生命科学的关键问题提供有益借鉴。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.11936/bjutxb2021010011

发表时间：2021

DOI：10.7544/issn1000-1239.2019.20190386

发表时间：2019

江瑞的其他基金

批准号：61175002

批准年份：2011

资助金额：59.00

项目类别：面上项目

批准号：60805010

批准年份：2008

资助金额：22.00

项目类别：青年科学基金项目

批准号：61873141

批准年份：2018

资助金额：66.00

项目类别：面上项目

相似国自然基金

基于全基因组测序建立病毒拷贝数和整合位点的生物信息学方法及数据分析

批准号：81770205

批准年份：2017

负责人：黄金艳

学科分类：H0810

资助金额：55.00

项目类别：面上项目

多重耐药鲍曼不动杆菌全基因组测序和“耐药岛”的比较基因组学分析

批准号：30970113

批准年份：2009

负责人：俞云松

学科分类：C0108

资助金额：36.00

项目类别：面上项目

基于全基因组外显子测序的中国汉族海洛因依赖遗传学分析

批准号：81571856

批准年份：2015

负责人：魏曙光

学科分类：H2502

资助金额：60.00

项目类别：面上项目

基于数据整合的计算癌症基因组学研究

批准号：61379092

批准年份：2013

负责人：张世华

学科分类：F0213

资助金额：77.00

项目类别：面上项目

整合遗传学与基因组学信息的全基因组测序数据分析方法

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

信息熵-保真度联合度量函数的单幅图像去雾方法

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

城市生活垃圾热值的特征变量选择方法及预测建模

基于卷积神经网络的JPEG图像隐写分析参照图像生成方法

江瑞的其他基金

融合多种表型相似性和基因相似性的疾病关联基因预测方法

集成多种数据源识别导致常见疾病的遗传变异

整合序列与染色质状态大数据解析基因调控模式的深度学习方法

相似国自然基金