Posttranslational modification(PTM) of proteins plays a critical role in the regulation of a broad range of cellular processes and the development of human diseases. With the large-scale detection and release of complex PTM data with mass spectrometry, developing novel theory and approach for analyzing differential PTM is emerging as an important and challenging issue now. In the preliminary bioinformatics and biostatistics studies, we have made achievements in protein identification, differential expression models, risk evaluation of mutation and modification. In this proposal, we seek to develop novel methods to identify differential PTM at the level of individual site, as well as in the systematic view of protein and pathway. We will:.(1).with the combination of dry and wet-lab experiments, construct simulation and gold-standard testing datasets..(2).propose Zero-Inflated model for detecting differential modified sites, with the improvement in fitting overdispersion and zero-inflation of the data. The effects of sample size, effect size and the proportion of missing values will be accessed also..(3).create new approach for identifying the differential distribution of multiple PTM sites in a protein or a pathway level, rather than summing or averaging these signals. .(4).develop the corresponding open-source easy-to-use software/tool, and apply the new methods into real case. ..We believe that the proposed project will provide powerful methods for data mining of PTM profiles, and will give a novel insight to investigate underlying mechanisms of PTM in human diseases.
复杂的蛋白质翻译后修饰变化已被证实与疾病发生发展存在显著关联,但目前大规模修饰谱差异分析算法尚未得到充分研究。基于我们关于蛋白质鉴定、差异表达、突变与修饰注释等生物信息学研究积累,本项目拟聚焦蛋白质修饰谱,分别在位点、蛋白质和代谢通路水平上提出差异分析的新方法与新策略,并在模型建立、评估比较与软件开发应用方面展开研究:1)通过干湿实验结合建立理论模拟和质谱实验金标准测试数据集;2)针对位点修饰过度离散和缺失过多的数据特征,提出零膨胀模型进行拟合评估,并考虑样本量、效应值、缺失比例的影响;3)在蛋白质和代谢通路水平上,提出分布比对的方法进行多修饰位点联合分析,从均值、方差和分布形状进行多角度比较,完成统计学效力和生物可解释性的评估;4)开发相关软件工具。本项目旨在为大规模癌症蛋白质组修饰谱深度解析提供有效新方法,为蛋白修饰作用机理理解提供新视角,为挖掘关键性与驱动性修饰提供新工具。
蛋白质的磷酸化修饰参与或主导着真核细胞中重要的调节过程,同时,它与癌症等复杂疾病的发生发展密切相关。质谱技术的发展为定量磷酸化蛋白质组学在生物医学研究中的疾病机制解析、药物和疗法开发、甚至精准医疗等提供了巨大的机会。然而,磷酸化蛋白质组数据通常含有高比率的缺失值,数据呈现过度离散、高峰度的特征,这为其差异分析的统计应用造成影响。当数据中存在非随机缺失时,常用的差异分析策略——忽略缺失值会丢失信息,而缺失值填充会给数据带入人为噪音。现行的蛋白质组统计方法中,差异分析方法基本局限于上述两类,且多关注于常规蛋白质表达数据,目前仍缺乏对于含缺失值的定量磷酸化蛋白质组数据的差异分析方法研究和评估。.为此,本项目针对磷酸化蛋白质组数据的差异分析的技术瓶颈问题,引入半连续数据检验的策略和统计模型——同时对缺失值部分和非缺失值部分进行假设检验的两部分检验模型以及基于均值的检验模型,并基于真实磷酸化数据集的特征设计了针对性的理论模拟框架,在3234个不同的样本量、差异倍数、总缺失率和非随机缺失比率构成的数据场景下评估了该策略框架下7种具体的参数或非参数模型,同时与其它常用的忽略缺失值策略或缺失值填充策略的11种方法进行了系统比较。.结果表明,针对数据缺失部分和非缺失部分进行复合假设检验的两部分t检验、两部分Wilcoxon检验和SDA模型对于非随机缺失比率比较稳健,并在每组30例及以上的样本量下达到了较高的敏感度和准确度。在更小的样本量下,moderated t-test表现较优。另外本文发现,当缺失值填充方法和数据的缺失机制不匹配时,缺失值填充会大大降低统计检验的准确度,因此需要谨慎使用缺失值填充方法。本研究中所得的各模型表现结果为磷酸化蛋白质组的差异分析实际应用提供了新方法与参考,也对其它类型蛋白质修饰谱分析具有借鉴意义。.此外,在上述统计模型的基础之上,项目进行了更复杂样本磷酸化蛋白质数据分析一系列新策略开发、应用探索,以及大规模人类肺腺癌蛋白质图谱数据的绘制与解析,为癌症分子分型、磷酸化新药靶发现提供参考。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
水牛睾丸蛋白质组表达谱研究和相关组织差异蛋白质的iTRAQ定量分析
营养缺乏应激下肝脏线粒体中SUMO修饰蛋白的定量蛋白质组学分析
坛紫菜高温胁迫应答的定量差异蛋白质组学研究
基于iTRAQ定量蛋白质组学技术的鸭疫里默氏杆菌差异蛋白质组学研究