High throughput technique generates a large scale of SNP (Single Nucleotide Polymorphism) data. The data contains much information such as causative mutation、evolutionary history and population differences. The size of the data is huge. At the same time, the data is incomplete and contains many noises because of the limitations of technologies and observation errors. Thus, finding the pathogenic SNPs from this kind of data is a hard and important task in the post-genome era. For the purpose, we will analyze multiple kinds of biological data to find the characters of pathogenic SNPs. After that, we will design a novel algorithm using the differences of energy distributions to analyze all SNP simultaneously. The method should find most suspicious pathogenic SNPs efficiently. We also try to design a statistical model to discover the pathogenic SNPs on genome-wide data according to Mendel’s laws. At last, an efficient software platform based on cloud computing technology will be provided for biological scientists.
高通量实验技术产生了大量的单核苷酸多态(SNP,Single Nucleotide Polymorphism)数据。这些SNP数据中隐含了致病突变、人类进化与人种差异等许多有用信息。然而SNP数据的规模非常大,同时因为各种生物技术限制与观察误差等,所得到的数据通常是不完整的,而且包含了很多噪音。因此,如何设计高效的算法从这样的SNP数据中挖掘出致病SNP位点就成为了后基因组时代的一项重要任务。本项目将融合多种生物信息,首先找到致病SNP位点的生物学特征,然后针对大规模人群健康-疾病对照数据,设计基于能量分布差异的算法同时分析所有SNP的相互作用,从而找到最可能致病的SNP位点。本项目还将在大规模人群数据基础上,根据孟德尔遗传规律,提出了一个数学统计模型来检测全基因组上的遗传疾病SNP位点。最终,项目组成员将构建一个基于云计算平台的软件供生物医学研究人员使用。
SNP数据分析在DNA与疾病关联分析中占有非常重要的地位。在DNA测序技术的飞速发展下,人们得到大量的测序数据,此时,对数据的分析就显得尤为重要。SNP数据有许多特点,其特征维度可高达数百万,样本数从几十到上千,相对于特征维数,样本数非常少,针对特定疾病起作用的SNP位点可能只有几个,其他SNP都是噪音。针对这种数据,目前还没有特别有效的算法。所以SNP数据分析算法的研究即是DNA测序时代的需求,也能促进计算机算法的发展。项目组成员针对单性状多位点全基因组关联分析以及多性状全基因组关联分析的种种方法,分析了其优缺点及适用范围,并得出全基因组关联的SNP数据分析未来可能的研究方向。这给我们的研究指出了大致的方向与方法突破口。项目组成员基于HapMap(国际人类基因组单体型图计划)数据,找到了74个可疑致命的SNP位点,一共10个SNP处于“reviewed” 基因编码区内。其中5个基因都和致命儿童疾病或胚胎发育密切相关,1个基因会导致精子生成失败,其他4个基因也都和多种遗传疾病密切相关。项目组成员尝试通过大规模生物网络数据来研究疾病,在学习和研究网络数据分析的过程中,提出了基于混合深度神经网络的基因遗传变体致病性注释方法等方法。项目组成员提出了一种针对任意分布的特征选择算法以及全自动聚类算法。在本课题资助下,项目组成员在国内外重要的刊物上共发表学术论文6篇,其中在SCI检索论文2篇,EI检索论文3篇,其他期刊论文1篇。培养研究生2名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
卫生系统韧性研究概况及其展望
基于分形维数和支持向量机的串联电弧故障诊断方法
五轴联动机床几何误差一次装卡测量方法
疾病相关SNP位点挖掘与SNP功能注释系统的研究
基于高阶SNP互作挖掘与分析的复杂疾病全基因组关联研究
通过全基因组关联分析发掘结缕草属耐盐SNP标记位点及相关基因
全基因组重测序数据高维SNP相互作用研究