With the rapid development of modern instrumental analytical technologies, it is not very difficult to obtain the high throughput metabolomics datasets any more. However, many new questions followed. A great challenge is how to deal with the practical problems coming with the massive actual datasets. A remarkable characteristic of high throughput datasets is that the number of variables is much bigger than that of the samples. Many difficulties will come out in data fusion and model evaluation because of this specific characteristic of dataset. In this project, a series of chemometric data fusion algorithms and strategies will be proposed aiming to deal with different types and different levels request of metabolomics data fusion, based on our previous metabolomics research works. These methods will applied to build up a robust data fusion model. Furthermore, we will try to reveal the features of datasets obtained from different sources and their inner change rules of variables. It will provide technical support for multi center, large range of metabolomics research. As we all know, model evaluation is a very important basic question for chemometrics, chemoinformatics and bioinformatics. It is also a key question in data processing of metabolomics. In this project, we will deal with this problem from a new angle. The statistical distributions of model parameters will employed to screen the key factors relating with the predictive ability evaluation of model. On this basis, some new methods and new indexes will be proposed for model evaluation. The new algorithms and strategies proposed in the project will be applied to disease metabolomics research. They will help us to build up disease pattern models having good predictive ability, which might be a complement or an alternative for clinical diagnosis and prognostic prediction.
随着仪器分析技术的飞速发展,高通量代谢组学数据的获得已变得不再困难。随之而来的是如何解决这些海量实际数据带来的诸多现实问题。高通量数据,一个显著的特点就是变量数远大于样本的数量。这一特点给数据融合和模型评价带来了一系列的困难。本课题拟在前期的代谢组学研究工作基础上,根据不同类型、不同层次的代谢组学数据融合要求,开发一系列化学计量学数据融合新算法和新策略。揭示不同数据集的数据特征以及数据集之间变量的内在变化规律,建立稳健的数据融合模型,为多中心大范围的代谢组学研究提供技术支撑。另一方面,针对模型评价这个化学计量学、化学信息学和生物信息学都十分关注的基础性问题,从模型参数的统计分布角度出发,寻找与评价模型的预测能力相关的关键因素,建立模型评价新方法和新指标。所建立的方法将应用于疾病的代谢组学研究中,用于建立有良好预测能力的疾病分类模型,为疾病的临床诊断和预后预测提供新的手段。
随着分析技术的快速发展,代谢组学高通量数据的获得已不再困难。然而,如何保障数据的高质量,如何提高数据处理的有效性和准确性成为摆在我们面前的新问题。本研究基于代谢组学数据维度高、干扰变量多、类不平衡等特点,针对代谢组学数据融合和模型评价所涉及的诸多问题开展研究工作。.从测定混合标准品、混合血浆样本、患者实际血浆样本三个层次对不同仪器平台和不同批次代谢组学数据的变化和差异进行分析和评价。结果表明,不同类型代谢物的性质差异大,在生物基质中的稳定性不尽相同。非目标的代谢组学研究只能完成代谢组的半定量分析。目标代谢物的精确测量需根据其性质进行有针对性地方法摸索及方法学考察。在算法方面,本研究在剖析代谢组学数据结构的基础上,围绕变量选择的数据融合问题,提出了基于稀疏正则化的稳健的变量选择方法,相关性辅助最近缩小质心分类算法等。针对模型评价的问题,基于模型集群分析的思路,从噪声变量、弱相关变量和冗余变量、特征变量等的统计分布出发,提出了将交互验证的决定系数与模型稳定性指标相结合对模型进行评价的研究思路,及准确率-召回率准则用于分类模型评价的方法。.我们将所建立的方法应用于2型糖尿病、颅脑损伤引发认知障碍、冠心病、鼻咽癌等疾病的代谢组学研究中,不仅提高了疾病分类模型和潜在生物标志物筛选的准确性和稳定性,针对这些疾病还有一些有趣的发现。颅脑损伤并发认知障碍的代谢通路研究发现,该疾病将引发五条重要的代谢通路的变化,亚油酸代谢、半乳糖代谢、花生四烯酸代谢、甘氨酸/丝氨酸/苏氨酸代谢、苯基丙氨酸代谢。此外,我们跟踪了新确诊的118例2型糖尿病患者两年的变化,发现其中有44例患者两年后并发有动脉粥样硬化,比例高达37.29%。结合临床指标数据与代谢组学数据的分析表明,C20:0,C22:6n-3,HbAlC和WC这四个指标很可能与2型糖尿病并发动脉粥样硬化密切相关。这些研究结果无疑将对疾病的发病机理研究,患者治疗方案的优化提供有价值的信息。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
转录组与代谢联合解析红花槭叶片中青素苷变化机制
代谢组学数据挖掘方法研究
基于网络解卷积和贝叶斯模型的组学数据融合分析方法及应用研究
代谢组学数据融合与建模新方法及在糖尿病肾病研究中的应用
代谢组学数据解析方法用于肺癌早期诊断