基于人群的生物医学多层面数据整合方法及肿瘤风险预测研究

基本信息

批准号：81530088

项目类别：重点项目

资助金额：274.00

负责人：陈峰

学科分类：

依托单位：南京医科大学

批准年份：2015

结题年份：2020

起止时间：2016-01-01 - 2020-12-31

项目状态：已结题

项目参与者：赵杨,余灿清,马红霞,张汝阳,戴俊程,郭丽,段巍巍,杨晟

关键词：

风险预测整合分析人群队列信息熵大数据

结项摘要

The biomedical big data (BBD), generated from a variety of sources and multiple layers, include personal-level exposure data, population-level environmental exposure information, high-resolution medical images, electronic health records, as well as data from high-throughput genomic platforms such as DNA sequencing, DNA methylation, gene expression, et al.. Most of previous studies only focused on the dataset from a single layer, ignoring the association among the multiple layers in BBD. In this study, we aim to develop more effective statistical methods for BBD integration to improve understanding of and provide insights into biomedical big data. Following strategy will be applied in the study: a) Preliminary fast screening of the risk factors; b) Fine evaluation of the risk factors; c) Building risk prediction model; d) Validation in independent populations. To further understand the sophisticated association among factors and risk of cancers, we will propose entropy based weighted information gain (WIG) method to efficiently enrich the genes carrying main effects, interactions within a single layer, interactions among multiple layers, as well as interactions with environment. Majority advantage of WIG method is utilizing the prior biological information into subsequencing analysis, such as molecular processes and regulatory relationships. Further, we will propose a Bayesian sequential method to integrate data from multi-layers to provide a better prediction of cancer risk. Furthermore, we will use the improved causal mediation analysis to explore the potential causal pathways. The proposed methods will be applied to lung cancer and gastric cancer. Risk factors and prediction models will also be explored and validated in large-scale cohorts.

生物医学数据来源广泛，涉及个体、群体环境暴露、遗传变异、DNA甲基化、基因表达等多个层面。常规研究往往仅利用某一层面单个完全数据集进行分析，忽视了多层面数据间的关系。本课题拟采用“初步筛选→再次筛选→精细建模→人群验证”的分析思路，利用大数据思维，对基于人群的生物医学多层面数据进行整合分析，探索肺癌、胃癌等常见肿瘤的复杂关联因素，建立风险预测模型，提高预测精度。拟充分考虑各层面间的结构、调控关系等生物先验信息，提出加权信息熵法，快速富集具有主效应或层面内、跨层面基因-基因、基因-环境交互作用信息的基因；提出Bayes序贯分析法，逐层整合数据，更高效地筛选预测因素；改进因果中介分析模型，探索多层面因素的作用方式及强度；将所建方法尝试应用于肺癌、胃癌的关联分析及风险预测模型的建立，并基于大规模人群队列进行验证。

项目摘要

复杂疾病由外环境暴露和内环境失衡共同作用所致。从外到内多个维度探寻疾病发生、发展的原因，是疾病预防、诊断、治疗的关键，对实现“健康中国”具有重要科学意义。多组学数据整合分析可以系统地、深入地鉴定疾病相关生物标志物；识别驱动疾病的复杂关联模式，包括：疾病因果链，基因与环境之间、之内的交互作用，疾病风险及预后预测模型。然而，多组学数据的“块缺失结构缺陷”、“高维灾难”、“复杂关联模式”等特点对数据挖掘提出了巨大的技术挑战。为此，我们从5个方面开展多组学数据的理论方法与临床研究：.i. 缺失处理。现实研究中，多组学数据有典型的“块缺失”结构缺陷。我们提出“填补”和“架桥”两种解决方案。与传统方法相比，我们构建的TOBMI填补算法具备填补精度高，有效维持原数据结构的特点。此外，两种“架桥”算法：全信息极大似然法和配对删除法，估计精度也优于传统方法。.ii. 降维策略。高维度的多组学数据具有信噪比低，分析耗时长的问题。我们提出ERB降维策略：基于信息熵(Entropy)，提取特征值；基于随机森林(Random forest)，按重要性筛选生物标志物；基于贝叶斯(Bayes)，利用先验信息，大规模并行筛选重要靶点。模拟实验与实例研究表明：上述降维策略可有效降低数据维度，聚焦重要标志物。.iii. 精细挖掘。复杂疾病由因素间复杂的关联模式所驱动。一方面，从因果推断角度，发展并运用孟德尔随机化、中介分析的方法，控制未知混杂因素，估计真实关联效应；探索因果关系，识别致病因子。另一方面，从交互作用角度，探索基因与环境之间、之内的复杂关联模式。.iv. 预测模型。复杂疾病由宏观、微观多个层面因素所决定。我们整合多维度指标，基于“初步筛选→再次筛选→精细建模→人群验证”的分析策略，构建了多个高精度的肿瘤预后预测模型。.v. 平台开发。获批国家版权局软件著作权5件，开发了2个交互式可视化平台，使得复杂的整合分析策略及方法变得操作便捷、易于实现。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

陈峰的其他基金

批准号：11535008

批准年份：2015

资助金额：300.00

项目类别：重点项目

批准号：91547115

批准年份：2015

资助金额：81.00

项目类别：重大研究计划

批准号：81772020

批准年份：2017

资助金额：55.00

项目类别：面上项目

批准号：81500210

批准年份：2015

资助金额：17.00

项目类别：青年科学基金项目

批准号：61005054

批准年份：2010

资助金额：22.00

项目类别：青年科学基金项目

批准号：70771063

批准年份：2007

资助金额：20.00

项目类别：面上项目

批准号：70973119

批准年份：2009

资助金额：22.00

项目类别：面上项目

批准号：81760308

批准年份：2017

资助金额：40.00

项目类别：地区科学基金项目

批准号：61671266

批准年份：2016

资助金额：58.00

项目类别：面上项目

批准号：41405081

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：81460261

批准年份：2014

资助金额：47.00

项目类别：地区科学基金项目

批准号：31901243

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：71672115

批准年份：2016

资助金额：48.00

项目类别：面上项目

批准号：31771081

批准年份：2017

资助金额：62.00

项目类别：面上项目

批准号：11574324

批准年份：2015

资助金额：73.00

项目类别：面上项目

批准号：U1332121

批准年份：2013

资助金额：76.00

项目类别：联合基金项目

批准号：30670603

批准年份：2006

资助金额：22.00

项目类别：面上项目

批准号：51278029

批准年份：2012

资助金额：80.00

项目类别：面上项目

批准号：81870747

批准年份：2018

资助金额：58.00

项目类别：面上项目

批准号：51472259

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：61071131

批准年份：2010

资助金额：36.00

项目类别：面上项目

批准号：60772050

批准年份：2007

资助金额：27.00

项目类别：面上项目

批准号：10875075

批准年份：2008

资助金额：46.00

项目类别：面上项目

批准号：81470139

批准年份：2014

资助金额：30.00

项目类别：面上项目

批准号：30671146

批准年份：2006

资助金额：26.00

项目类别：面上项目

批准号：31471717

批准年份：2014

资助金额：91.00

项目类别：面上项目

批准号：51102258

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：11274203

批准年份：2012

资助金额：95.00

项目类别：面上项目

批准号：81701943

批准年份：2017

资助金额：19.00

项目类别：青年科学基金项目

批准号：39500127

批准年份：1995

资助金额：6.50

项目类别：青年科学基金项目

批准号：81473070

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：71272115

批准年份：2012

资助金额：48.00

项目类别：面上项目

批准号：61271388

批准年份：2012

资助金额：88.00

项目类别：面上项目

批准号：10505013

批准年份：2005

资助金额：28.00

项目类别：青年科学基金项目

批准号：81072389

批准年份：2010

资助金额：32.00

项目类别：面上项目

批准号：70972070

批准年份：2009

资助金额：23.00

项目类别：面上项目

批准号：81570378

批准年份：2015

资助金额：60.00

项目类别：面上项目

批准号：30571664

批准年份：2005

资助金额：25.00

项目类别：面上项目

批准号：81460629

批准年份：2014

资助金额：47.00

项目类别：地区科学基金项目

批准号：81200762

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：71871027

批准年份：2018

资助金额：48.00

项目类别：面上项目

批准号：81173510

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：30571619

批准年份：2005

资助金额：23.00

项目类别：面上项目

批准号：81400033

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：51404077

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：11204313

批准年份：2012

资助金额：30.00

项目类别：青年科学基金项目

批准号：49972095

批准年份：1999

资助金额：17.00

项目类别：面上项目

批准号：61203265

批准年份：2012

资助金额：24.00

项目类别：青年科学基金项目

批准号：60505018

批准年份：2005

资助金额：6.00

项目类别：青年科学基金项目

批准号：61775120

批准年份：2017

资助金额：63.00

项目类别：面上项目

相似国自然基金

应用整合模型定量评估及预测气候变化背景下人群健康风险

批准号：40905069

批准年份：2009

负责人：李湉湉

学科分类：D0502

资助金额：19.00

项目类别：青年科学基金项目

基于大数据的人群心血管疾病风险预测模型构建及应用研究

批准号：91546120

批准年份：2015

负责人：高培

学科分类：H3011

资助金额：35.00

项目类别：重大研究计划

基于多源数据整合的药物组合预测方法研究

批准号：61103075

批准年份：2011

负责人：赵兴明

学科分类：F0213

资助金额：23.00

项目类别：青年科学基金项目

基于多组学数据整合的疾病基因预测方法研究

批准号：61572363

批准年份：2015

负责人：赵兴明

学科分类：F0213

资助金额：68.00

项目类别：面上项目

基于人群的生物医学多层面数据整合方法及肿瘤风险预测研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

"多对多"模式下GEO卫星在轨加注任务规划

智能煤矿建设路线与工程实践

信息熵-保真度联合度量函数的单幅图像去雾方法

陈峰的其他基金

基于离子束辐照纳米材料的新型介电晶体光波导的基础研究

怒江源区径流量场的树轮重建及其气候驱动机制研究

Cav-1/Nox1/STIM1信号通路参与百草枯心肺损害机理研究及中毒标志物筛选

长链非编码RNA MEG3激活p53参与病理性心肌肥厚中内皮损伤的作用和机制

可穿戴型颈部助力并联机器人技术研究

不确定环境下的基于循环取料与在线喂料的越库调度系统的建模与优化

产业竞争情报理论方法的基本问题及其实证研究

GABAA受体基因多态性对槟榔依赖者前扣带回神经网络调控的多模态MRI研究

基于概率图模型的大规模视觉皮层脉冲神经网络计算机理研究

树轮记录的近500年中亚吉尔吉斯斯坦天山气候变化及其温湿组合模式的机制探讨

基于DRD2基因的创伤后应激障碍影像遗传学研究

木质纤维脉冲-旋流高温气流干燥含水率预测模型及多相流传输动力学特性

面向多尺度箱式时间窗与路径库存整合的入厂物流协同优化调度模型与算法研究

仿生制备活性矿物载体用于骨肉瘤术后免疫治疗和缺损修复

(K,Na)NbO3(KNN)基无铅压电材料的带隙宽度调制和光伏效应研究

快重离子辐照激光晶体光波导的制备和波导激光产生

功能磁共振评价血管靶向及抗血管生成药物联合治疗肝肿瘤的实验研究

基于分子动力学及多智能体的地铁车站行人仿真研究

ECM29基因突变在非综合征型唇腭裂发病中的作用与机制研究

可降解介孔磷酸钙的制备、功能化及肿瘤靶向治疗的基础研究

概率图模型对偶优化及其在视频序列分析中的应用研究

基于视觉的人自然行为识别算法研究

离子注入稀土离子掺杂近化学计量比铌酸锂晶体的波导激光

动态活细胞成像研究MDSCs在多发性骨髓瘤耐药中的作用及其分子机制

与HIV-1感染相关的CCR5-Δ3基因的起源及进化研究

食用小球藻Chlorella zofingiensis异养发酵生产虾青素的调控机制研究

磷酸钙基纳米复合材料的制备、功能化及靶向肿瘤成像的基础研究

飞秒激光写入晶体光波导的制备及其激光倍频效应研究

KLF14调控单核巨噬细胞糖代谢在脓毒症免疫抑制中的作用

医学研究中非独立数据的分析方法

全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究

面向有限拼载与嵌套满足约束的出厂物流组合装载问题的模型与优化算法研究

基于约束松弛的概率图模型近似推理研究及在计算摄像学中的应用

离子注入平面光波导和波导阵列中的光折变孤子及离散孤子研究

全基因组关联研究中的降维策略和统计分析方法研究

面向入厂物流空箱约束具有可重复利用资源的调度模型与优化算法研究

PAH血管重塑新靶点半乳凝素-3在肺血管平滑肌细胞中的功能及其作用机制研究

Smad3相关蛋白（SAP）抑制胶原合成分子机制的研究

温脾止泻中药益智减轻伊立替康所致大鼠腹泻毒性的PK-PD作用机制研究

新型成骨诱导因子Nell-1ΔE的功能及其分子机制研究

基于多源大数据与个体活动的城市轨道交通客流预测理论研究

石菖蒲抗阿尔茨海默病(AD)的药效物质基础研究

非传统病例-对照设计的统计分析方法研究与评价

血管外膜氧应激参与PAH血管重塑的表观遗传学机制

Ti-1.5Al-4.5Fe-6.8Mo合金在氢气相变烧结（HSPT）过程中的致密化及相变机理研究

BiFeO3多铁薄膜表面、界面能带结构的光电子谱研究

用动态岩石电阻率变化各向异性探测岩石主破裂扩展方向

基于不同癌症和miRNA关联网络的有向协同机制发现

深海稀软底质及未知强干扰环境作业机器人组合导航研究

飞秒激光直写制备三维非线性晶体光波导结构及其特性研究

相似国自然基金