Based on previous investigation, it is found that current implementation of partial least square (PLS) algorithm was not optimized based on the definition of its criterion. In this project, we will investigate the optimization rule of the PLS criterion, based on which, a novel multivariate analysis algorithm will be developed. The superiority of the new optimization rule will be theoretically justified. Both the new and current PLS algorithms will be applied to metabolomics datasets to evaluate their advantages and disadvantages. Furthermore, the analyzation of complex metabolomics NMR spectra is time consuming even with the well-developed BATMAN (Bayesian AuTomated Metabolite Analyser for NMR spectra) software. As the sampling process for parameters in Bayesian modeling is an iterative process with large number of loops, the analysis is not efficient with high resolution NMR spectra. In this project, we will propose to incorporate the hybrid independent component analysis (ICA) method as a pre-process step for Bayesian model to give a better starting point for its parameters, hence to improve its processing speed and accuracy. More efficient metabolomics data analyzing algorithms should provide a better understanding of the data, promote its further application and eventually integrate with other omics research in system biology applications.
基于前期研究发现,目前常用的偏最小二乘(PLS)算法并不是其目标定义的最优化结果。本课题将基于PLS定义推导出最优化准则,并开发出更加优化的进行多变量分析的新算法。本课题将从理论上证明新算法的优越性,并将新算法应用于代谢组学数据中。对比目前的PLS算法,解释和检验在理论和实践中的两种算法各自的优势和特点。另一方面,申请人开发的BATMAN软件成功的实现了代谢组学核磁共振(NMR)谱数据谱峰拟合分析的自动化。但是由于贝叶斯模型中含有多个参数需要进行大量的循环迭代运算采样,因此其在分析高分辨率NMR谱时运算效率不高。本课题将探索使用申请人前期提出的混合独立成分分析技术改进BATMAN算法的迭代初始值的设定,从而提高算法的运算效率和准确性。为代谢组学更广泛的应用提供更有效的数据分析工具,促进代谢组学在系统生物学研究中,以及与其他组学间更多的结合与应用。
代谢组学是继基因组学,转录组学和蛋白质组学之后,组学家族中日趋成熟的一员。代谢组学与其他组学的结合,也是目前大规模系统性研究各类疾病的趋势。由于各组学间采集数据本质的差异,意味着他们可以提供互补的生物信息。对生物体的全局功能的了解需要多组学的整合来实现,但这同时也增加了整个数据集的复杂性。随着多组学大型检验中心,大型数据库等的不断建立和发展,以及各种数据采集仪器的不断精进,更多信息含量的,高度复杂的组学大数据正迅速积累。高通量代谢组学数据与其他组学数据相结合的实际需求对数据分析处理技术提出了更高的要求。高通量大数据中干扰后续分析的各种噪声信号变量和技术噪声等,会直接影响分类聚类结果以及代谢标志物的发现。大数据中含有有效信息的变量数量常常大大少于噪声信息的变量数量,被大量无用信息覆盖下的有效信息,即使在各种带监督和无监督机器学习的算法下也常常难以表征。而目前对于大数据去除干扰的方法,多停留在主观选择去除条件的方法上。基于上述问题,我们提出了一种基于样本数据统计学特性的自适应无监督去噪算法。此阈值与数据统计特性密切相关,去除了主观去噪方法中可能存在的问题,大大提高了可分类别趋势和数目以及生物标志物的类目。对比目前已有算法分析结果,相同的几组数据都拿到了更多更锐利的聚类结果,或者与已发表文章不同的生物标志物。BATMAN软件成功的实现了代谢组学核磁共振(NMR)谱数据谱峰拟合分析的自动化。但是由于贝叶斯模型中含有多个参数需要进行大量的循环迭代运算采样,因此其在分析高分辨率NMR谱时运算效率不高。在复杂模型的实际实现中,坐标上升方法中广泛使用蒙特卡罗方法估算期望值,而导数驱动方法则多用梯度估算。我们提出了蒙特卡洛坐标上升变异推理 (Monte Carlo Co-ordinate Ascent VI(MC-CAVI))算法,在计算坐标上升变异推理 (CAVI)所需的期望值时使用马尔科夫链蒙特卡罗 (MCMC) 方法。我们讨论并显示了在模拟和真实的例子中,MC-CAVI适用于具有硬性约束条件的模型。我们比较了在分析代谢组学核磁共振 (NMR)谱的BATMAN复杂模型分析中,MC-CAVI 和MCMC的性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
融合Softmax回归和偏最小二乘的中药数据分析方法研究
基于偏最小二乘理论的结构可靠度分析代理模型方法
整体最小二乘新算法及其精度评定研究
基于网络解卷积和贝叶斯模型的组学数据融合分析方法及应用研究