基于概率校准和集成学习的出生缺陷发病风险预测模型研究

基本信息
批准号:81502897
项目类别:青年科学基金项目
资助金额:18.00
负责人:罗艳虹
学科分类:
依托单位:山西医科大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:张雪娟,景立伟,萨建,王淑玲,李敏捷,李鹭,关超
关键词:
概率校准出生缺陷风险预测集成学习
结项摘要

Birth defect has become an important public health issue influencing quality of population and population health. To predict birth defects risk accurately is of great significance to prevent birth defects. At present, monitoring methods, diagnosis technologies and analysis methods of birth defects are increasingly perfect in our country, but there are still some deficiencies such as missed diagnosis, misdiagnosis and missing reports, which lead to biased prediction probability of birth defects. Besides, birth defects cohort data belong to class imbalance resulting in decreased predictive performance of the risk prediction model created. This project focuses on risk prediction model of birth defect. Using probability calibration technology and machine learning algorithms with perfect performance, an improved prediction model will be built to predict the risk probability of birth defect by combining random forests and support vector machine model based on Platt scaling probability calibration and the traditional logistic model. Probability calibration and ensemble learning technique are verified based on the numerical simulation and the UCI machine learning public data sets. Then the improved model created will be used for birth cohort data of Shanxi Province to screen risk groups of birth defects effectively and to alert or control the risk found. This project may provide basis for birth defects intervention strategy development and is of great significance for preventing birth defects and improving population quality.

出生缺陷已成为影响人口素质和群体健康水平的重要公共卫生问题,准确预测出生缺陷发病风险对预防出生缺陷意义重大。目前,我国的出生缺陷监测方法、诊断技术及分析手段等环节日益完善,但仍存在漏诊、误诊及漏报等不足,使出生缺陷预测概率存在偏差,同时出生缺陷队列数据存在类别不平衡问题,致使构建的风险预测模型其预测性能降低。本项目定位于出生缺陷发病风险预测模型研究,提出利用概率校准技术和效果优良的机器学习算法,构建基于Platt scaling概率校准的随机森林和支持向量机模型,并结合传统logistic模型对预测概率进行集成学习,提高预测性能。相关概率校准和集成学习技术在数值模拟和UCI机器学习公共数据集验证的基础上,对山西省出生队列数据进行实证分析,从而有效筛选出生缺陷高危人群,对风险进行预警和控制。本项目可为制定出生缺陷干预策略提供理论依据,对预防出生缺陷、提高人口素质具有重要意义。

项目摘要

出生缺陷是影响出生人口素质及群体健康的重要公共卫生问题,准确预测出生缺陷风险对预防出生缺陷意义重大。目前,我国的出生缺陷监测方法、诊断技术及分析手段等环节日益完善,但仍存在漏诊、误诊及漏报等不足,使出生缺陷预测存在偏差。同时,出生缺陷数据存在类别不平衡问题,致使构建的出生缺陷分类预测和概率预测模型的预测性能欠佳。本研究针对以上问题建立基于集成学习的先天性心脏病(先心病)分类预测模型和基于概率校准和集成学习的先心病概率预测模型,为筛选先心病高危人群提供参考。本研究首先采用Logit回归和加权随机森林(Weighted Random Forest,WRF)分析先心病的影响因素。接着,通过调整惩罚权重分别构建加权支持向量机(Weighted Support Vector Machine,WSVM)、WRF及利用约登指数最大确定截断点的Logit回归模型对先心病进行分类预测,同时对以上三种模型的分类预测结果实行多数投票的集成学习。最后,构建基于Platt和Iso概率校准的WRF和WSVM,并结合Logit回归模型对概率预测结果进行集成学习(基于简单平均及加权平均)。由分析结果可知,Logit回归和WRF均认为遗传因素和母亲饮食与叶酸使用对先心病发生的影响较大。9个分类预测评价指标显示三种模型及集成模型的分类预测效果均比较理想,集成模型的预测效果最优,其次为WSVM。通过概率预测效果评价指标可知,本研究构建的概率预测模型均比较理想,基于Platt概率校准和Iso概率校准的简单平均和加权平均集成的4种模型的概率预测效果接近,优于非集成的单一模型。6种非集成模型中,WSVM的概率预测效果最优,其次为Logit回归模型。对于WRF,两种校准模型的概率预测效果均优于未校准模型。对于WSVM,Platt校准的预测性能同样略优于Iso校准。本研究针对不平衡数据构建的分类预测模型和概率预测模型都取得预想的效果,分类集成和概率集成模型预测效果优于组成集成模型的各个单一模型,校准的概率预测效果优于未校准模型。本文构建的模型可以有效筛选先心病高危人群,可为制定出生缺陷干预策略提供理论依据。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
2

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

罗艳虹的其他基金

相似国自然基金

1

基于集成和迁移学习的跨项目软件缺陷预测方法研究

批准号:61902228
批准年份:2019
负责人:李志强
学科分类:F0203
资助金额:26.00
项目类别:青年科学基金项目
2

出生缺陷发生风险的时空动力学模型研究

批准号:41101431
批准年份:2011
负责人:廖一兰
学科分类:D0114
资助金额:23.00
项目类别:青年科学基金项目
3

深度概率图模型的学习与推理预测

批准号:61573266
批准年份:2015
负责人:杨有龙
学科分类:F0603
资助金额:66.00
项目类别:面上项目
4

基于深度强化学习的集成预测模型优化研究

批准号:71901204
批准年份:2019
负责人:刘明熹
学科分类:G0104
资助金额:19.00
项目类别:青年科学基金项目