面向跨领域异构数据的患者相似性学习方法及应用

基本信息
批准号:81671786
项目类别:面上项目
资助金额:25.00
负责人:陈卉
学科分类:
依托单位:首都医科大学
批准年份:2016
结题年份:2018
起止时间:2017-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:费晓璐,武文芳,杨秋英,周震,赵相坤,魏岚,杨淼,陈婕卿,罗薇
关键词:
半监督学习异构数据主动学习患者相似性电子病历
结项摘要

With the rapid spread of electronic medical records system in medical institutions, a large amount of medical-related important information has been stored electronically in the medical information systems. After continuous accumulation, a large volume of medical data provided by various medical information systems has become a great source of medical evidence. Finding “patient like me”, i.e. efficiently creating effective patient similarity measures, will facilitate the generation of effective evidence and their widely uses. However, since medical records are usually heterogeneous, sparse and noisy, most existing work on patient similarity is for complete data from single homogenous source and type, and varies depending on the application. The goal of this research project is to systematically investigate how we can learn effective, accurate and robust patient similarity measures from various heterogeneous information sources, as well as adapt the learned similarity measure across different applications. We will propose an incremental learning framework for patient similarity learning. We will first construct a similarity measure for each type of information (source/representation) and complete the similarity matrix. Experts' feedback on the patients in terms of patient labels, pairwise constraints or relative comparisons will be obtained to further improve the accuracy and reliability of the patient similarities through supervised learning. We will leverage the patient similarity measures across heterogeneous data sources in two types of application scenarios: individual analysis and population analysis, and will explore the reuse of electronic health data in clinical medicine in the era of big data.

随着电子病历系统在医疗机构的迅速普及,大量医疗相关的重要信息以电子形式存储于医疗信息系统中。经过不断积累,各种形式的医疗信息系统产生了体量庞大的医疗大数据,成为生成医学证据的巨大来源,而寻找准确的“与我相似的”患者将极大地促进有效证据的生成及其广泛应用。由于医疗大数据具有异构、稀疏、有噪声的特点,目前患者相似性研究多针对来源和类型单一的完备数据,且依赖于具体应用。本研究旨在系统地研究如何从各种异构患者数据中学习有效、准确、可靠、能适应不同应用的患者相似性。我们提出一种渐进的患者相似性学习框架:为每类患者信息构建一个相似性矩阵并通过矩阵补全消除数据噪声、完备数据;获得专家反馈信息(患者标签、成对约束和相对比较),通过监督学习提高患者相似性的准确性和可靠性。最后在患者个体层次和群体层次上分别应用患者相似性度量,探索大数据背景下电子病历数据的临床二次应用。

项目摘要

随着医院信息化建设步伐的加快,电子病历系统、实验室信息系统等得到广泛应用,积累了体量庞大的医疗大数据,它们成为生成医学证据的巨大来源。根据两个患者的历史信息获得准确、可靠、有效的患者相似性度量将极大地促进有效证据的生成和应用。本项目研究的目标是提出一种患者相似性的学习框架,整合专家反馈信息,从异构数据中学习患者相似性。首先制定了将4类患者特征的相似性整合为患者相似性的多种计算方案,采用任务引导方式确定患者相似性的最佳计算方案。在此基础上,将每两个患者表示为一个4维向量(每一维代表一个特征相似性度量)形式的样本,并利用专家标注的少量样本进行有监督学习,以获得样本间马氏距离的最优半正定协方差阵。当使用最近邻分类器对大量无标签样本进行分类时,分类精确度可达95%以上。进一步利用主动学习思想,不断将各类的中心点样本加入到有标签样本集中,以此来扩大标签样本集的规模,以“学习”过程代替专家的人工标注过程,取得了很好的效果。将患者相似性应用于筛选训练样本、构建预测模型,多个实验证实基于相似样本建立的预测模型其性能优于基于随机样本的预测模型,模型性能改善的程度也与模型本身的算法、参数设置有关。总之,通过本项目的研究,我们提出了“直接计算患者相似性——基于专家标注的半监督学习最优相似性测度——基于主动学习的自动样本标注——基于更多标注样本的患者相似性监督学习”的患者相似性学习流程,为解决大规模电子病历数据研究中费时、费力的人工标注问题提供了一种思路,提高了患者相似性度量的准确性,为进一步开展基于患者相似性的电子病历数据挖掘工作奠定了基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

相似国自然基金

1

面向多领域数据的联合流形学习方法及在迁移学习中的应用

批准号:61370006
批准年份:2013
负责人:王靖
学科分类:F0605
资助金额:58.00
项目类别:面上项目
2

面向领域本体的深度学习方法研究

批准号:61003204
批准年份:2010
负责人:刘桃
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
3

异构媒体深度分析与跨领域理解

批准号:61702136
批准年份:2017
负责人:孙晓帅
学科分类:F0210
资助金额:25.00
项目类别:青年科学基金项目
4

面向复杂数据的多任务学习方法与应用

批准号:61673364
批准年份:2016
负责人:徐林莉
学科分类:F0603
资助金额:62.00
项目类别:面上项目