With the development of chemical and biological technology, a deluge of data has been generated as the result of the falling cost and instantly data methods. So, the research of natural bioactive molecule anti-tumor target spectrum (NBMTS) is experiencing an explosion of data and entering the era of statistical model and data analysis. Many traditional statistical methods that perform well for moderated sample size do not accurate to data from research of NBMTS, which is a data from many sources, high-dimensional data, missing data, complex data, errors of measurements, weak variable correlation and high-dimensional discrete data. Our project focus on statistical methods of 'Big data' from the research of NBMTS and study on the methods of removing systematic biases and the best normalization practice for aggregated data from numerous sources, dependent data, missing data, outliers. We will also build the networks of NBMTS by handled the inconsistency issue of high dimensional sample covariance matrix and resolved the biase of eigenvalue of the sample covariance matrix. A variable selection methods of nonparameter and semiparameter statistical model will be introduced by exploitation of sparsity or quasi-sparsity assumption, which is an essential concept for modern statistical methods applied to high dimentional data. The target molecules will be selected from the gene pathway, bioactivity indicators, protein pathway and metabolic pathway by the mothods we proposed. The method of false discovery control for large-scale simultaneous tests based on dependent assumption would been detailed studied, in order to control the accuration of statistical test. Our project will propell the development and research the model of complex biological data.
随着化学、生物技术的快速发展,抗肿瘤数据的获得变得快捷和便宜,使天然活性小分子抗肿瘤靶点谱的研究进入统计建模和数据分析时代。而传统的统计方法在处理天然活性小分子抗肿瘤靶点谱中出现的大量的混杂数据、高维数据、缺失数据、复杂数据、测量错误、异常值、相依及高维离散数据时使传统研究出现较大的偏差。本项目围绕天然活性小分子抗肿瘤靶点谱研究的大数据,运用统计的理论和方法研究不同来源的复杂数据及异常值和测量误差的统计方法,降低系统误差;研究高维或超高维数据样本协方差矩阵逆协方差矩阵特征值的不一致性及纠偏方法并构建天然活性小分子抗肿瘤靶点谱的网络结构;研究稀疏或近似稀疏条件下高维非参数和半参数模型的变量选择方法,对基因通路、活性指标、蛋白通路及代谢通路中的关键变量进行研究,选出靶点分子;研究非独立条件下如何控制大规模统计检验的虚假发现比例,控制检验的精度。项目研究将推动复杂生物数据统计模型的研究与发展。
本研究从Pubmed及Cochrane数据库中检索有关天然活性小分子倍半萜内酯、细胞毒活性及抗炎活性为关键词,从400多篇英文文献中得到倍半萜内酯的活性数据,使用分层模型消除不同来源数据的随机性,最后选取了58个倍半萜内酯,使用Web Dragon分子计算软件得到分子描述符。从KEGG Brite、 BRENDA、 SuperTarget及 Drugbank四个数据库提取到已知的药物与靶点相互作用的数据,得到445个酶、210个离子通道、223个GPCR和54个核受体,对应的相互作用为2926、1476、635和90。基于高维稀疏贝叶斯Lasso方法、非参数的贝叶斯潜变量分类模型(LCA)、非参数的高维agent-based模型、非负矩阵分解方法对从不同来源的天然活性小分子倍半萜内酯及药物靶点数据库Catalyst、KEGG Brite、 BRENDA、 SuperTarget及 Drugbank对天然活性小分子抗肿瘤靶点谱进行研究。发现:(1)在贝叶斯Lasso模型进行变量选择时,调节参数的选择具有非常重要的作用,在对天然活性小分子倍半萜内酯具有抗肿瘤活性的1600个结构特征的选择时,得到调节参数的路径,挑出优化的调节参数得到回归系数的稀疏结构,选出10多个结构指标和抗肿瘤相关的指标,得到参数的后验分布,计算得到参数的估计及置信区间,表明其抗肿瘤活性主要是含有特殊的内酯结构;(2)针对非参数的贝叶斯潜变量分类模型(LCA)的标签切换问题,选出最优的约束条件。用AIC、BIC、DIC及调整BIC解决模型的拟合优度问题使用采集的数据进行了实证分析,然后对Catalyst、KEGG Brite、 BRENDA、 SuperTarget及Drugbank靶点数据库中的重要靶点进行潜变量分析,找到靶点之间的共同特征;(3)使用高斯过程模型拟合高维agent-based模型,基于贝叶斯后验的分布对控制变量进行优化,对复杂的代谢通路进行了初步的研究,提出了倍半萜内酯可能的代谢通路及相关的靶点谱;(4)将活性小分子与靶点相互作用矩阵分解成活性小分子相似矩阵(U)和靶点谱相似矩阵(V)的乘积,基于贝叶斯统计推断得到U和V的后验分布,然后对一些新的活性小分子其可能的靶点谱进行预测,发现新的靶点谱。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
以CHOP为靶点的小分子激活剂发现及其抗肿瘤活性与机制研究
基于溶酶体为靶点的天然产物衍生物制备及抗肿瘤活性研究
天然产物Glaucocalyxin H 的抗肿瘤作用靶点确证及分子机制研究
CDK2/Aurora A 多靶点抗肿瘤小分子抑制剂的设计、合成与生物活性研究