With the rapid spread of electronic medical records system in medical institutions, a large amount of medical-related important information has been stored electronically in the medical information systems. After continuous accumulation, a large volume of medical data provided by various medical information systems has become a great source of medical evidence. Finding “patient like me”, i.e. efficiently creating effective patient similarity measures, will facilitate the generation of effective evidence and their widely uses. However, since medical records are usually heterogeneous, sparse and noisy, most existing work on patient similarity is for complete data from single homogenous source and type, and varies depending on the application. The goal of this research project is to systematically investigate how we can learn effective, accurate and robust patient similarity measures from various heterogeneous information sources, as well as adapt the learned similarity measure across different applications. We will propose an incremental learning framework for patient similarity learning. We will first construct a similarity measure for each type of information (source/representation) and complete the similarity matrix. Experts' feedback on the patients in terms of patient labels, pairwise constraints or relative comparisons will be obtained to further improve the accuracy and reliability of the patient similarities through supervised learning. We will leverage the patient similarity measures across heterogeneous data sources in two types of application scenarios: individual analysis and population analysis, and will explore the reuse of electronic health data in clinical medicine in the era of big data.
随着电子病历系统在医疗机构的迅速普及,大量医疗相关的重要信息以电子形式存储于医疗信息系统中。经过不断积累,各种形式的医疗信息系统产生了体量庞大的医疗大数据,成为生成医学证据的巨大来源,而寻找准确的“与我相似的”患者将极大地促进有效证据的生成及其广泛应用。由于医疗大数据具有异构、稀疏、有噪声的特点,目前患者相似性研究多针对来源和类型单一的完备数据,且依赖于具体应用。本研究旨在系统地研究如何从各种异构患者数据中学习有效、准确、可靠、能适应不同应用的患者相似性。我们提出一种渐进的患者相似性学习框架:为每类患者信息构建一个相似性矩阵并通过矩阵补全消除数据噪声、完备数据;获得专家反馈信息(患者标签、成对约束和相对比较),通过监督学习提高患者相似性的准确性和可靠性。最后在患者个体层次和群体层次上分别应用患者相似性度量,探索大数据背景下电子病历数据的临床二次应用。
随着医院信息化建设步伐的加快,电子病历系统、实验室信息系统等得到广泛应用,积累了体量庞大的医疗大数据,它们成为生成医学证据的巨大来源。根据两个患者的历史信息获得准确、可靠、有效的患者相似性度量将极大地促进有效证据的生成和应用。本项目研究的目标是提出一种患者相似性的学习框架,整合专家反馈信息,从异构数据中学习患者相似性。首先制定了将4类患者特征的相似性整合为患者相似性的多种计算方案,采用任务引导方式确定患者相似性的最佳计算方案。在此基础上,将每两个患者表示为一个4维向量(每一维代表一个特征相似性度量)形式的样本,并利用专家标注的少量样本进行有监督学习,以获得样本间马氏距离的最优半正定协方差阵。当使用最近邻分类器对大量无标签样本进行分类时,分类精确度可达95%以上。进一步利用主动学习思想,不断将各类的中心点样本加入到有标签样本集中,以此来扩大标签样本集的规模,以“学习”过程代替专家的人工标注过程,取得了很好的效果。将患者相似性应用于筛选训练样本、构建预测模型,多个实验证实基于相似样本建立的预测模型其性能优于基于随机样本的预测模型,模型性能改善的程度也与模型本身的算法、参数设置有关。总之,通过本项目的研究,我们提出了“直接计算患者相似性——基于专家标注的半监督学习最优相似性测度——基于主动学习的自动样本标注——基于更多标注样本的患者相似性监督学习”的患者相似性学习流程,为解决大规模电子病历数据研究中费时、费力的人工标注问题提供了一种思路,提高了患者相似性度量的准确性,为进一步开展基于患者相似性的电子病历数据挖掘工作奠定了基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向多领域数据的联合流形学习方法及在迁移学习中的应用
面向领域本体的深度学习方法研究
异构媒体深度分析与跨领域理解
面向复杂数据的多任务学习方法与应用