How to integrate the data from omics and clinical imaging and biochemical detection, explore the relationship between those data, and further identify the most predictive features to establish the prediction model is interesting and have both practical and theoretical implications. When integrating the multi-scale data, we may face many issues, like heterogeneous data, redundant variables, model overfitting and NP combination of independent variables. In this project, we would develop different regularized penalties in structural grouping sparsity loss function to integrate and simultaneously select features with linear model, logistic model and SVM. This new method can integrate multi-scale data and simultaneously perform feature selection between and within each feature group. We aim to illustrate the theory of different regularized penalties and estimate the regression coefficient or contribution to the response in each model and as well as evaluate the stability and performance for the predictive model. Meanwhile, we would apply our method into multi-scale data from cervical cancer patients who would receive the chemotherapy response. We would get the bio fluids and have the gemonics, proteomics and metabolomics, and as well as imaging data, biochemical data, demographic and clinicopathological data and then apply our method to integrate the multi-scale data and simultaneously perform feature selection to establish the predictive model, finally we would evaluate the performance of this predictive model with an independent prospective cohort study.
如何将医学研究中的高维组学数据与影像学、血清学等数据进行整合,从不同角度和层面综合分析和了解疾病,同时筛选出对疾病或用药等最具预测性的特征,构建准确地预测模型,将对机理研究和临床决策具有重要的理论和实际意义。将不同来源的多尺度数据进行整合分析时,主要存在数据异构、冗余变量、模型过拟合和自变量组合NP难等问题。本项目将在正则惩罚函数的基础上,结合线性模型、logistic模型和SVM,通过构建合适的惩罚函数项,提出新的整合多尺度数据同时实现变量筛选的结构组稀疏算法,主要研究算法实现整合及变量筛选的原理、模型参数估计方法及性质、评价预测模型的稳定性及效果等。同时,本研究以宫颈癌化疗患者为主要观测对象,获取其基因组、蛋白质组、代谢组学数据以及临床生化、病理、影像学等数据,运用上述模型和数据分析方法筛选出能够预测宫颈癌化疗敏感性的不同层次水平的特征,综合建立预测模型,最后通过前瞻性研究进行验证。
本研究的主要内容:适合于多尺度高维组学数据整合的预测模型与损失函数、具有相关关系结构组稀疏算子(惩罚函数)的选择、同一患者具有多种疾病状态时结构组稀疏算子构建和优化、不同来源不同患者的不完整多尺度数据模型构建、结构组稀疏优化算法,以及宫颈癌化疗敏感性预测模型研究。本研究在L1和L2正则化的基础上,构建新的目标损失函数,解决了异构特征组选择、组内亚组特征识别及不同次变量交互作用筛选的问题;同时研究了不同损失函数(如 LS、logit、PML、hinge)和惩罚函数(如 L1+L2、SCAD)的性质,并且通过模拟实验和实际数据的计算证明了其有效性和局限性。在宫颈癌的研究和数据分析上,使用结合新辅助化疗的宫颈癌病人在不同时间点的基因组学、蛋白质组学、代谢组学,以及影像学像素集数据和临床特征等,对宫颈癌化疗敏感性预测生物标志物筛选并进行模型构建,给出了多个mRNA、蛋白质、代谢物及血浆多肽的生物标志物,为进一步生物实验验证和临床应用研究提供了重要的依据和线索。在研究成果方面完成了预期计划,研究期间共发表了26篇相关论文,其中在国际上发表SCI论文14篇,中国核心期刊发表12篇。参加国内学术会议24人次,国际会议3人次。目前,相关的研究工作继续深入开展,课题组相继在2017年获得国家自然科学基金项目1项、其他省部级资助项目3项。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
缺失响应数据下高维稀疏分位数回归模型的变量选择
基于概率生成模型的高维数据变量选择
基于高维纵向数据边际模型的变量选择及理论研究
高维稀疏统计模型中的变量选择与检验