Birth defect has become an important public health issue influencing quality of population and population health. To predict birth defects risk accurately is of great significance to prevent birth defects. At present, monitoring methods, diagnosis technologies and analysis methods of birth defects are increasingly perfect in our country, but there are still some deficiencies such as missed diagnosis, misdiagnosis and missing reports, which lead to biased prediction probability of birth defects. Besides, birth defects cohort data belong to class imbalance resulting in decreased predictive performance of the risk prediction model created. This project focuses on risk prediction model of birth defect. Using probability calibration technology and machine learning algorithms with perfect performance, an improved prediction model will be built to predict the risk probability of birth defect by combining random forests and support vector machine model based on Platt scaling probability calibration and the traditional logistic model. Probability calibration and ensemble learning technique are verified based on the numerical simulation and the UCI machine learning public data sets. Then the improved model created will be used for birth cohort data of Shanxi Province to screen risk groups of birth defects effectively and to alert or control the risk found. This project may provide basis for birth defects intervention strategy development and is of great significance for preventing birth defects and improving population quality.
出生缺陷已成为影响人口素质和群体健康水平的重要公共卫生问题,准确预测出生缺陷发病风险对预防出生缺陷意义重大。目前,我国的出生缺陷监测方法、诊断技术及分析手段等环节日益完善,但仍存在漏诊、误诊及漏报等不足,使出生缺陷预测概率存在偏差,同时出生缺陷队列数据存在类别不平衡问题,致使构建的风险预测模型其预测性能降低。本项目定位于出生缺陷发病风险预测模型研究,提出利用概率校准技术和效果优良的机器学习算法,构建基于Platt scaling概率校准的随机森林和支持向量机模型,并结合传统logistic模型对预测概率进行集成学习,提高预测性能。相关概率校准和集成学习技术在数值模拟和UCI机器学习公共数据集验证的基础上,对山西省出生队列数据进行实证分析,从而有效筛选出生缺陷高危人群,对风险进行预警和控制。本项目可为制定出生缺陷干预策略提供理论依据,对预防出生缺陷、提高人口素质具有重要意义。
出生缺陷是影响出生人口素质及群体健康的重要公共卫生问题,准确预测出生缺陷风险对预防出生缺陷意义重大。目前,我国的出生缺陷监测方法、诊断技术及分析手段等环节日益完善,但仍存在漏诊、误诊及漏报等不足,使出生缺陷预测存在偏差。同时,出生缺陷数据存在类别不平衡问题,致使构建的出生缺陷分类预测和概率预测模型的预测性能欠佳。本研究针对以上问题建立基于集成学习的先天性心脏病(先心病)分类预测模型和基于概率校准和集成学习的先心病概率预测模型,为筛选先心病高危人群提供参考。本研究首先采用Logit回归和加权随机森林(Weighted Random Forest,WRF)分析先心病的影响因素。接着,通过调整惩罚权重分别构建加权支持向量机(Weighted Support Vector Machine,WSVM)、WRF及利用约登指数最大确定截断点的Logit回归模型对先心病进行分类预测,同时对以上三种模型的分类预测结果实行多数投票的集成学习。最后,构建基于Platt和Iso概率校准的WRF和WSVM,并结合Logit回归模型对概率预测结果进行集成学习(基于简单平均及加权平均)。由分析结果可知,Logit回归和WRF均认为遗传因素和母亲饮食与叶酸使用对先心病发生的影响较大。9个分类预测评价指标显示三种模型及集成模型的分类预测效果均比较理想,集成模型的预测效果最优,其次为WSVM。通过概率预测效果评价指标可知,本研究构建的概率预测模型均比较理想,基于Platt概率校准和Iso概率校准的简单平均和加权平均集成的4种模型的概率预测效果接近,优于非集成的单一模型。6种非集成模型中,WSVM的概率预测效果最优,其次为Logit回归模型。对于WRF,两种校准模型的概率预测效果均优于未校准模型。对于WSVM,Platt校准的预测性能同样略优于Iso校准。本研究针对不平衡数据构建的分类预测模型和概率预测模型都取得预想的效果,分类集成和概率集成模型预测效果优于组成集成模型的各个单一模型,校准的概率预测效果优于未校准模型。本文构建的模型可以有效筛选先心病高危人群,可为制定出生缺陷干预策略提供理论依据。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于FTA-BN模型的页岩气井口装置失效概率分析
基于集成和迁移学习的跨项目软件缺陷预测方法研究
出生缺陷发生风险的时空动力学模型研究
深度概率图模型的学习与推理预测
基于深度强化学习的集成预测模型优化研究