Type 2 diabetes (T2D) is a complex, chronic and non-self-curable disease which is associated with obesity. The effective diagnosis and treatment of T2D relies on a systematic understanding of the molecular mechanism of the disease development. To achieve the goal, we proposed a novel computational and statistical method, referred to as dual eigen-analysis, to unravel the molecular mechanism of complex diseases from big omic data. Particularly, we examined gene expression profiles of multi-tissues from outbred mice and rats fed with a high-fat diet (HFD) or regular chow over a time course. The dual eigen-analysis has the following features: 1 pool the samples at all time points and under all diets together, and let the data empirically stratify themselves and generate a contrast within each stratum; 2 do not assume that omic data obey normal distributions; 3 the sample and gene-eigenvectors correspond respectively to the macro- and micro-biology information. Centering around the dual eigen-analysis, we will investigate; 1 the mathematical problems of data preprocessing such as normalization; 2 the computational and statistical approach that identifies the high-fat diet gene expression eigenvectors as well as the endogenous ones, particularly the significance evaluation, robustness and stability; statistical inferences of the molecular processes and regulatory mechanisms underlying the gene expression eigenvectors; 3 the integration of expression and epigenetic data by comparative dual eigen-analysis. The dual eigen-analysis and discoveries will provide new evaluations/guidance in T2D prevention and therapy, and will also promote new mathematical thinking in big data analysis.
2型糖尿病是一种复杂的、具有多基因遗传性、并与肥胖关联的疾病,是威胁人类生活质量的慢性进展性疾病。有效地诊断和干预2型糖尿病依赖于对此疾病发生发展分子机制的全面认识。本课题以高脂饮食诱发2型糖尿病的系统机制为案例,发展从组学大数据解析复杂疾病发生发展分子机制的原创的双重特征分析方法。这个方法有以下特点:1 将全部时间点、全部饮食组的样本整合起来分析, 由数据自己定义正交分层结构,并给出双向的对比; 2. 对功能性组学数据不做正态分布假设; 3. 给出奇异值分解的新的视角,即为主要奇异值所对应的特征分量偶,建立宏观生物因子和微观分子机制的关联。围绕双重特征分析,我们研究大样本情况下数据正规化的理论基础;识别基因特征向量的计算和统计方法,特别关注显著性的评估和稳健性;以统计方法,从基因表达向量谱推断相应的细胞分子机制;推断基因特征向量对应的的分子调控机制;用比较双重特征分析整合各种组学数据。
通过高维组学大数据辅助解析2型糖尿病的发生发展分子机制,是应用数学和统计学对医学做出贡献的一个契机,也是一个挑战。本项目围绕大鼠和人类的两个公共胰岛转录组数据,开展了组学数据分析的公理化建模和双重特征分析方法研究。在表达组数据正规化方面,将分子生物中的看家基因共识表示为数学公理,并在此唯一公理假设基础上,演绎发展出相应的多参照系正规化方法MUREN和优度评估准则。在从基因表达谱统计推断细胞分子机制的方法方面,采用伪范数方法分析比较了Wilcoxon分值等富集分析方法。课题组提出的从基因表达谱统计推断相应调控机制的BASE方法,需要转录因子和靶点基因的结合强度。它一般是用ChIP-seq、ChIP-chip技术获取,但这种数据依赖于细胞种类和环境条件,和基因表达谱相匹配才能合理使用。我们发现启动子序列中順式调控元件的出现频率就是结合强度的很好估计。在双重特征分析方法上,提出了极化特征向量的概念,并引入扰动分析的泰勒展开和重抽样的方法研究极化特征向量的稳定性。项目首次尝试用双重特征分析方法研究进化,提出了CREF双重特征模块的概念,并比较了人和黑猩猩等的CREF模块。研究发现,在第4、5容级之间,调控模块发生了相变。在数学上对应着相等特征值带来的特征空间退化现象。这一相变产生了人类特有的第4容级模块,它调控长期记忆、以耳蜗发育为核心的语言功能,以视觉为基础的认知学习功能、社交行为、以及交感神经系统等,推动这一基因组相变的重要驱动力之一是与ALU转座子相关的变异。本课题组研发的基因组方法BAUM在2019年初获选中国生物信息学十大进展,最近我们提出了原创的拼接 基因组组装结构的稳健回归方法RegScaf。在2型糖尿病机制方面,我们在大鼠和人的表达谱中发现确认了一个公共的对应于2型糖尿病发展的主基因特征向量。这个主基因向量的分子特征是:上调的血管生成基因表达和下调的氧化磷酸化基因表达。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
Efficient photocatalytic degradation of organic dyes and reaction mechanism with Ag2CO3/Bi2O2CO3 photocatalyst under visible light irradiation
论大数据环境对情报学发展的影响
农超对接模式中利益分配问题研究
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于时空组学数据解析2型糖尿病的多层次建模方法
代谢组学数据解析方法用于肺癌早期诊断
基于多层次组学数据遗传分析的肺癌转移和复发分子遗传机制的解析
基于代谢组学的2型糖尿病高危人群风险评估方法研究