Genome-wide association studies (GWAS) provide a powerful approach to reveal the genetic architectures of human complex diseases. Since there are no efficient algorithms to detect gene-gene interactions in the genome-scale, single-locus based approaches are still the primary method for current GWAS with limited computing resources. However, gene-gene and gene-environment interactions play key roles in the development of human complex diseases. Practical and efficient algorithms of detecting multi-locus interactions are in urgent need. Vast sections of the human genome were previously wrongly thought as 'junk DNA'. Most genotype data used in GWAS are distributed in 'junk DNA' and the functional information underlying the genotype data has not been considered. A recent research of the ENCODE (Encyclopedia of DNA Elements) project showed that 80% of the human genome participate in at least one biochemical function and belong to a functional element. This project will map SNPs to DNA functional elements, translate the genotype data of GWAS into the data of functional elements, and partition DNA functional elements into subsets according the knowledge mined from gene regulation networks, metabolic pathways and protein-protein interaction networks. We will mine properties of small parameters in the data, and model interactions using clustering, logic regression and decision trees guided by the theory of parameterized complexity. Via the search strategy based on the partition, we will at last propose practical and efficient algorithms of detecting gene-gene interactions for GWAS using techniques in parameterized algorithm design and machine learning.
受计算资源和算法效率的制约,作为探索复杂疾病遗传机制有力手段的全基因组关联分析(GWAS)目前主要局限于单位点分析方法。可复杂疾病是基因-基因、基因-环境交互作用的结果,全基因组关联分析亟需高效多位点交互作用探测算法。 人类大部分DNA以前被误认为是"垃圾",GWAS采用的基因型数据大部分是在"垃圾"DNA上,其隐藏的功能信息没能利用。最近ENCODE计划已发现人类DNA80%的序列至少参与某一生化功能,属于某一功能元素。本项目将把SNP位点映射到DNA功能元素,把以SNP为单位的基因型数据转换成以功能元素为单位的数据,通过聚集基因调控网络、代谢路径和蛋白质交互网络等信息,把功能元素进行分区;进而挖掘变换后数据的小参数特性,利用聚类、逻辑回归、决策树等手段结合参数复杂理论为交互作用建模;最终基于分区搜索策略,采用参数算法设计技术和机器学习方法为GWAS设计实用高效的多位点交互作用探测算法。
受计算资源和算法效率的制约,作为探索复杂疾病遗传机制有力手段的全基因组关联分析(GWAS)目前主要局限于单位点分析,可复杂疾病是基因-基因、基因-环境交互作用的结果,设计有效的全基因组多基因交互作用探测算法对揭示复杂疾病发病机制有重要意义,全基因组关联分析亟需高效多位点交互作用探测算法。. 在本项目的资助下,我们提出了基于能量分布差异的多个SNP位点相互作用探测算法。该方法将每个个体的SNP序列对应到高维空间中的一个点,这些点都携带相同大小的能量;然后寻找一个新的坐标系,使得疾病人群与健康人群的能量分布差异达到最大;进而根据这个新坐标系找到有交互作用的多位点的SNP的组合。进而我们通过融合蛋白质互作信息和蛋白质在亚细胞中的位置信息构建加权交互图,通过迭代方法给候选的致病基因排序,并能有效发现新的候选致病基因。. 同时项目组在生物网络构建、基因组序列变异数据纠错、基因组变异的单体型分型研究上也取得了显著进展,我们利用平衡优化分区和两位点连锁加权图构建了单体型重建的有效算法,为进一步研究基于单体型的全基因组关联分析多基因交互作用探测算法研究打下了基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
畜禽全基因组关联分析中基因交互作用检测方法研究
泛全基因组关联分析:人类复杂疾病全基因组关联分析的整合研究
全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究
基于全基因组关联分析的遗传调控网络构建算法研究