基于结构组稀疏算法的多尺度高维数据变量筛选及预测模型研究

基本信息
批准号:81573256
项目类别:面上项目
资助金额:55.00
负责人:侯艳
学科分类:
依托单位:哈尔滨医科大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:周晓华,李康,高颖,张红霞,柯朝甫,谢宏宇,王文杰
关键词:
变量筛选预测模型结构组稀疏(SGS)算法高维数据多尺度数据
结项摘要

How to integrate the data from omics and clinical imaging and biochemical detection, explore the relationship between those data, and further identify the most predictive features to establish the prediction model is interesting and have both practical and theoretical implications. When integrating the multi-scale data, we may face many issues, like heterogeneous data, redundant variables, model overfitting and NP combination of independent variables. In this project, we would develop different regularized penalties in structural grouping sparsity loss function to integrate and simultaneously select features with linear model, logistic model and SVM. This new method can integrate multi-scale data and simultaneously perform feature selection between and within each feature group. We aim to illustrate the theory of different regularized penalties and estimate the regression coefficient or contribution to the response in each model and as well as evaluate the stability and performance for the predictive model. Meanwhile, we would apply our method into multi-scale data from cervical cancer patients who would receive the chemotherapy response. We would get the bio fluids and have the gemonics, proteomics and metabolomics, and as well as imaging data, biochemical data, demographic and clinicopathological data and then apply our method to integrate the multi-scale data and simultaneously perform feature selection to establish the predictive model, finally we would evaluate the performance of this predictive model with an independent prospective cohort study.

如何将医学研究中的高维组学数据与影像学、血清学等数据进行整合,从不同角度和层面综合分析和了解疾病,同时筛选出对疾病或用药等最具预测性的特征,构建准确地预测模型,将对机理研究和临床决策具有重要的理论和实际意义。将不同来源的多尺度数据进行整合分析时,主要存在数据异构、冗余变量、模型过拟合和自变量组合NP难等问题。本项目将在正则惩罚函数的基础上,结合线性模型、logistic模型和SVM,通过构建合适的惩罚函数项,提出新的整合多尺度数据同时实现变量筛选的结构组稀疏算法,主要研究算法实现整合及变量筛选的原理、模型参数估计方法及性质、评价预测模型的稳定性及效果等。同时,本研究以宫颈癌化疗患者为主要观测对象,获取其基因组、蛋白质组、代谢组学数据以及临床生化、病理、影像学等数据,运用上述模型和数据分析方法筛选出能够预测宫颈癌化疗敏感性的不同层次水平的特征,综合建立预测模型,最后通过前瞻性研究进行验证。

项目摘要

本研究的主要内容:适合于多尺度高维组学数据整合的预测模型与损失函数、具有相关关系结构组稀疏算子(惩罚函数)的选择、同一患者具有多种疾病状态时结构组稀疏算子构建和优化、不同来源不同患者的不完整多尺度数据模型构建、结构组稀疏优化算法,以及宫颈癌化疗敏感性预测模型研究。本研究在L1和L2正则化的基础上,构建新的目标损失函数,解决了异构特征组选择、组内亚组特征识别及不同次变量交互作用筛选的问题;同时研究了不同损失函数(如 LS、logit、PML、hinge)和惩罚函数(如 L1+L2、SCAD)的性质,并且通过模拟实验和实际数据的计算证明了其有效性和局限性。在宫颈癌的研究和数据分析上,使用结合新辅助化疗的宫颈癌病人在不同时间点的基因组学、蛋白质组学、代谢组学,以及影像学像素集数据和临床特征等,对宫颈癌化疗敏感性预测生物标志物筛选并进行模型构建,给出了多个mRNA、蛋白质、代谢物及血浆多肽的生物标志物,为进一步生物实验验证和临床应用研究提供了重要的依据和线索。在研究成果方面完成了预期计划,研究期间共发表了26篇相关论文,其中在国际上发表SCI论文14篇,中国核心期刊发表12篇。参加国内学术会议24人次,国际会议3人次。目前,相关的研究工作继续深入开展,课题组相继在2017年获得国家自然科学基金项目1项、其他省部级资助项目3项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019

侯艳的其他基金

批准号:81102201
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:61603100
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:81773550
批准年份:2017
资助金额:54.00
项目类别:面上项目
批准号:31901097
批准年份:2019
资助金额:24.00
项目类别:青年科学基金项目

相似国自然基金

1

缺失响应数据下高维稀疏分位数回归模型的变量选择

批准号:11601409
批准年份:2016
负责人:罗双华
学科分类:A0403
资助金额:19.00
项目类别:青年科学基金项目
2

基于概率生成模型的高维数据变量选择

批准号:11671317
批准年份:2016
负责人:张春霞
学科分类:A0602
资助金额:48.00
项目类别:面上项目
3

基于高维纵向数据边际模型的变量选择及理论研究

批准号:11871390
批准年份:2018
负责人:付利亚
学科分类:A0402
资助金额:52.00
项目类别:面上项目
4

高维稀疏统计模型中的变量选择与检验

批准号:11471223
批准年份:2014
负责人:崔恒建
学科分类:A0403
资助金额:65.00
项目类别:面上项目