面向糖尿病电子病历大数据的可解释性时序信息挖掘研究

基本信息
批准号:61802149
项目类别:青年科学基金项目
资助金额:21.00
负责人:吴利娟
学科分类:
依托单位:暨南大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:张享周,刘雪彦,陈蔚琦,罗启超,刘康,胡申玲,舒昕宇,马芳婷
关键词:
数据挖掘与知识发现糖尿病智能管理电子健康病历可解释性时序信息与模式发现
结项摘要

The data mining of interpretable temporal information from massive diabetic electronic health records (EHR) is a key step to transform data into knowledge, and also provides an important basis for further individualized intelligent management of diabetes. However, different from the traditional time series analysis model, due to the uniqueness of the trajectory of each diabetic patient, the high-dimensional and sparse diabetic EHR time-series data presents a complex characteristic of disorder. To solve these problems, based on the previous works and the massive diabetic EHR data, this project mainly focuses on the problems of the interpretable temporal information mining, including: first, in order to alleviate the high-dimensionality and redundancy problems of diabetic EHR data, we propose a stable screening ensemble mechanism for risk importance of sequential aggregation features; secondly, based on the matrix information of patient temporal portrait, the common pattern and individual pattern will be explored by nonnegative matrix factorization and optimization model; finally, through the vectorization and graphical representation of the temporal matrix information, machine learning and deep learning methods will be used to predict and verify the diabetic temporal pattern and complications. This project will promote the intelligent level of diabetic management and lay a key technical foundation for further intelligent and personalized medical diagnosis and treatment.

从海量糖尿病电子病历数据中进行可解释性时序信息挖掘研究是将数据转化为知识的关键步骤,也为进一步的糖尿病个性化智能管理提供重要依据。但不同于传统时间序列分析模型,由于每个糖尿病患者轨迹的唯一性,高维稀疏的糖尿病电子病历时序数据呈现出“无序”的复杂特点。针对这些问题,在已有工作的基础上,本项目以糖尿病电子病历的海量数据为研究对象,重点研究可解释性时序信息挖掘问题,具体包括:首先,研究时序聚合特征信息风险重要性的稳定筛选集成机制,从而缓解电子病历数据的高维和冗余问题;其次,针对“患者时序画像”矩阵信息,利用非负矩阵分解和最优化模型求解等方法挖掘“公共时序模式”和“个性化时序模式”;最后,通过时序矩阵信息的向量化和图像化表示,利用机器学习和深度学习方法对糖尿病并发症进行预测验证。本项目有望推进糖尿病智能健康管理的技术和水平,为进一步的医疗健康智能化知识推理和个性化健康诊疗奠定关键技术基础。

项目摘要

从海量电子病历数据中进行可解释信息挖掘研究是将数据转化为知识的关键步骤,也为进一步的疾病个性化智能管理提供重要依据。但不同于传统时间序列分析模型,由于每个患者轨迹的唯一性,高维与稀疏的电子病历时序数据呈现出“无序”的复杂特点。首先,针对当前对电子病历特征主要采用简单过滤式特征选择以及筛选的最优特征子集的不稳定等问题,项目构建了稳定的特征筛选集成机制,并详细地分析了如何选取与数据样本大小相匹配的最优特征选择方法,以及通过构建数据层或方法层集成策略增强最优风险因子筛选的稳定性。其次,结合人工智能和专家先验知识,构建了一套挖掘潜在风险知识的模型框架,并从预测准确性、知识稳定性、与专家知识一致率等三个角度分析了该方法的有效性,利用该方法挖掘出年龄组之间的风险差异性和波动性,不仅提供了可解释性知识挖掘结果,而且为探索潜在新的风险知识并增强个性化解释提供了可能。最后,利用机器学习和深度学习方法构建了糖尿病肾病并发症的风险评估模型,有助于提高疾病的早期预测或预防,具有深远的临床指导意义。.项目组与暨南大学第一附属医院、南方医科大学第一附属医院(南方医院)的医生就患者的临床数据知识挖掘及辅助预测开展了深入合作与交流,顺利完成预期任务,在国际核心学术期刊(SCI收录)上已发表高水平论文5篇,二审阶段论文2篇,参加多次国际与国内学术会议。本课题按照申请书设定的技术路线与年度计划有序进行。本课题研究成果对患者疾病预测、患者群体风险差异性、和潜在风险知识挖掘等方面的研究提供新的解决思路和方法,不仅具有理论意义,而且具有广阔应用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
2

基于MCPF算法的列车组合定位应用研究

基于MCPF算法的列车组合定位应用研究

DOI:
发表时间:2016
3

结直肠癌免疫治疗的多模态影像及分子影像评估

结直肠癌免疫治疗的多模态影像及分子影像评估

DOI:10.13609/j.cnki.1000-0313.2022.04.019
发表时间:2022
4

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
5

信息熵-保真度联合度量函数的单幅图像去雾方法

信息熵-保真度联合度量函数的单幅图像去雾方法

DOI:10.3724/SP.J.1089.2019.17435
发表时间:2019

吴利娟的其他基金

相似国自然基金

1

面向电子病历的可修订数字签名研究

批准号:61872089
批准年份:2018
负责人:伍玮
学科分类:F0213
资助金额:62.00
项目类别:面上项目
2

面向临床决策辅助的电子病历文本结构化方法与知识挖掘研究

批准号:61702033
批准年份:2017
负责人:尚小溥
学科分类:F0214
资助金额:25.00
项目类别:青年科学基金项目
3

电子病历挖掘中的聚类模型与算法研究

批准号:71771034
批准年份:2017
负责人:郭崇慧
学科分类:G0112
资助金额:47.00
项目类别:面上项目
4

面向临床辅助理解的电子病历可读化研究

批准号:61802350
批准年份:2018
负责人:程铭
学科分类:F0214
资助金额:25.00
项目类别:青年科学基金项目