基于全基因组数据的致病SNP位点挖掘

基本信息
批准号:61662028
项目类别:地区科学基金项目
资助金额:40.00
负责人:丁小军
学科分类:
依托单位:江西理工大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:杨书新,邓小鸿,夏小云,鲁纪华,刘成辉
关键词:
致病SNP复杂疾病单核苷酸多态性全基因组关联研究DNA序列
结项摘要

High throughput technique generates a large scale of SNP (Single Nucleotide Polymorphism) data. The data contains much information such as causative mutation、evolutionary history and population differences. The size of the data is huge. At the same time, the data is incomplete and contains many noises because of the limitations of technologies and observation errors. Thus, finding the pathogenic SNPs from this kind of data is a hard and important task in the post-genome era. For the purpose, we will analyze multiple kinds of biological data to find the characters of pathogenic SNPs. After that, we will design a novel algorithm using the differences of energy distributions to analyze all SNP simultaneously. The method should find most suspicious pathogenic SNPs efficiently. We also try to design a statistical model to discover the pathogenic SNPs on genome-wide data according to Mendel’s laws. At last, an efficient software platform based on cloud computing technology will be provided for biological scientists.

高通量实验技术产生了大量的单核苷酸多态(SNP,Single Nucleotide Polymorphism)数据。这些SNP数据中隐含了致病突变、人类进化与人种差异等许多有用信息。然而SNP数据的规模非常大,同时因为各种生物技术限制与观察误差等,所得到的数据通常是不完整的,而且包含了很多噪音。因此,如何设计高效的算法从这样的SNP数据中挖掘出致病SNP位点就成为了后基因组时代的一项重要任务。本项目将融合多种生物信息,首先找到致病SNP位点的生物学特征,然后针对大规模人群健康-疾病对照数据,设计基于能量分布差异的算法同时分析所有SNP的相互作用,从而找到最可能致病的SNP位点。本项目还将在大规模人群数据基础上,根据孟德尔遗传规律,提出了一个数学统计模型来检测全基因组上的遗传疾病SNP位点。最终,项目组成员将构建一个基于云计算平台的软件供生物医学研究人员使用。

项目摘要

SNP数据分析在DNA与疾病关联分析中占有非常重要的地位。在DNA测序技术的飞速发展下,人们得到大量的测序数据,此时,对数据的分析就显得尤为重要。SNP数据有许多特点,其特征维度可高达数百万,样本数从几十到上千,相对于特征维数,样本数非常少,针对特定疾病起作用的SNP位点可能只有几个,其他SNP都是噪音。针对这种数据,目前还没有特别有效的算法。所以SNP数据分析算法的研究即是DNA测序时代的需求,也能促进计算机算法的发展。项目组成员针对单性状多位点全基因组关联分析以及多性状全基因组关联分析的种种方法,分析了其优缺点及适用范围,并得出全基因组关联的SNP数据分析未来可能的研究方向。这给我们的研究指出了大致的方向与方法突破口。项目组成员基于HapMap(国际人类基因组单体型图计划)数据,找到了74个可疑致命的SNP位点,一共10个SNP处于“reviewed” 基因编码区内。其中5个基因都和致命儿童疾病或胚胎发育密切相关,1个基因会导致精子生成失败,其他4个基因也都和多种遗传疾病密切相关。项目组成员尝试通过大规模生物网络数据来研究疾病,在学习和研究网络数据分析的过程中,提出了基于混合深度神经网络的基因遗传变体致病性注释方法等方法。项目组成员提出了一种针对任意分布的特征选择算法以及全自动聚类算法。在本课题资助下,项目组成员在国内外重要的刊物上共发表学术论文6篇,其中在SCI检索论文2篇,EI检索论文3篇,其他期刊论文1篇。培养研究生2名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
4

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
5

五轴联动机床几何误差一次装卡测量方法

五轴联动机床几何误差一次装卡测量方法

DOI:
发表时间:

丁小军的其他基金

批准号:81001202
批准年份:2010
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

疾病相关SNP位点挖掘与SNP功能注释系统的研究

批准号:30600367
批准年份:2006
负责人:李传星
学科分类:H1804
资助金额:20.00
项目类别:青年科学基金项目
2

基于高阶SNP互作挖掘与分析的复杂疾病全基因组关联研究

批准号:61772124
批准年份:2017
负责人:赵宇海
学科分类:F0202
资助金额:64.00
项目类别:面上项目
3

通过全基因组关联分析发掘结缕草属耐盐SNP标记位点及相关基因

批准号:31572155
批准年份:2015
负责人:郭海林
学科分类:C1507
资助金额:65.00
项目类别:面上项目
4

全基因组重测序数据高维SNP相互作用研究

批准号:61472158
批准年份:2014
负责人:梁艳春
学科分类:F0213
资助金额:80.00
项目类别:面上项目