Traditional Chinese Medicine (TCM) present features of more compositions, more targets and more efficacies.TCM data present multiple variables, multiple dependent variables and nonlinear characteristics. It is very urgent to research multivariate analysis method for TCM data. Partial least square method has advantages in the TCM data analysis, but there are some limits: T square ellipse diagram method has some deficiency in analyze the outlier data of high-dimensional TCM data; determination coefficients cannot fully reflect the importance of variables; the model cannot fully reflect nonlinear characteristics of TCM data by the linear nature of the internal model. For the above important scientific significance project and the shortcomings of the partial least squares, on the basis of project data of TCM in recent years, collect and collate the experiment data, design sample database of TCM; Using the method of divide Contrastive Divergence Restricted Boltzmann Machine to identifying and eliminate the outlier point from sample data; analyze the importance of variables and screening important modeling variable based on random forest; embed Softmax nonlinear regression internal model to improved partial least squares modeling. The research focus on design multivariate data analysis model propitious to the characteristics of TCM data, to provide technical support for scientific analysis of TCM data.
中药呈现多成分、多靶点、多药效指标等特点,决定了中药数据具有多自变量、多因变量和非线性的特征,研究适合中药数据特点的多元分析方法显得尤为迫切。偏最小二乘方法在中药数据分析中具有优势,也存在局限:T平方椭圆图法在辅助分析高维中药数据特异点时存在不足;决定系数不能完全反映变量的重要性;模型内部的线性本质不能充分反映中药数据非线性特点。基于以上重要科学意义和偏最小二乘法的不足,本课题以近年来承担的中药领域课题数据为基础,收集整理实验数据,设计中药样本数据库;基于划分的对比散度受限波尔兹曼机快速学习算法,识别剔除样本数据中的特异点;基于随机森林算法分析变量的重要性,筛选重要的建模变量;模型内部嵌入Softmax非线性回归改进偏最小二乘建模。本研究聚焦设计有利于中药数据特点的多元非线性数据分析模式,为科学分析中药数据、揭示中医药内涵提供技术支撑。
中药数据具有多自变量、多因变量和非线性的特点,急需研究适合中药数据特点的分析方法。项目组在收集、整理中药复方实验数据的基础上,主要围绕中药数据分析中的特异点识别、变量(特征)选择、非线性建模方法三个关键因素,提出一系列的方法模型,经数据实验验证有效,为科学分析中药数据、揭示中医药内涵提供技术支撑。主要研究工作有:1、特异点识别研究:一种自适应的高维离群点识别方法;2、特征选择研究:融合因子分析的随机森林模型,一种聚类欠采样策略的随机森林优化方法,基于特征相关的偏最小二乘特征选择方法,融合降噪自编码器与BPSO的特征组合方法,基于L1正则项的偏最小二乘特征选择;3、非线性建模方法研究:融合softmax的偏最小二乘法,融合模型树的偏最小二乘法,融合随机森林的偏最小二乘法,融合受限玻尔兹曼机的偏最小二乘模型,融入深度学习的偏最小二乘优化方法;4、其它工作:完成了5项决策树优化研究;中医药信息学自然语言处理研究;优化中药配伍质量研究;方程的非线性解研究。项目组成员共发表论文36篇,其中SCI检索6篇,EI检索6篇,中文核心期刊论文20篇。获得计算机软件著作权3项。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于黎曼流形优化的深度偏最小二乘回归模型
基于偏最小二乘理论的结构可靠度分析代理模型方法
模糊聚类--偏最小二乘回归光度法测定地质样品中贵金属
基于偏最小二乘和贝叶斯理论的代谢组学数据挖掘的新算法研究