It is a big challenge in health informatics to discover the implicit knowledge which is buried in Electronic Health Records (EHRs) and to apply the discovered knowledge in medical decision support systems. Focusing on the imbalance and big-data features, this proposal aims (1) to study the corresponding methods of data mining including Extreme Learning Machines (ELMs) and Fuzzy Decision Trees (FDTs) and further to address the impact of imbalance on the different phases of mining methods; (2) to explore inherent feature of big data in EHRs and the strategies of handling HER big data including the incremental ELMs and parallel FDTs; and (3) investigate how to apply the data mining methods to HER-based information security and medical diagnosis by combining the domain knowledge. The research on data mining methods based on EHRs can improve the management level of EHRs, enlarge the scope of HER application to medical treatments, and enrich the theory of imbalance learning. It can provide useful guidelines for knowledge discovery models based on the imbalance transformation, and can provide the solid theoretical basis and believable technology support for designing high performance medical information systems based on EHRs.
发现隐藏在电子健康档案数据中的潜在知识并将其应用于医疗决策支持系统,是健康信息学中最具挑战性的问题之一。针对电子健康档案数据分布的非均衡和大数据特征,本项目拟(1)研究相应的数据挖掘方法包括极化学习机模型和模糊决策树规则挖掘以及非均衡性的表示和处理及对挖掘算法各个阶段的影响;(2)探讨电子健康档案所特有的大数据特征和相应挖掘方法的大数据处理策略包括增量极化学习机和并行模糊决策树;(3)研究如何结合领域知识将得到的挖掘方法应用于电子健康档案的安全监测和病理辅助诊断中。基于电子健康档案的数据挖掘研究丰富了非均衡学习理论并扩大了非均衡学习理论的应用范围,对建立基于非均衡转化的知识发现模式有明确的指导作用,为设计基于电子健康档案的高性能卫生医疗信息系统提供坚实的理论基础和可靠的技术支撑。
发现隐藏在电子健康档案大数据中的潜在知识并将其应用于医疗决策支持系统,是健康信息学中最具挑战性的问题之一。针对数据分布的非均衡和大数据特征,本项目系统研究了大数据非均衡挖掘问题。主要研究内容和重要结果包括:. 1. 针对非均衡环境下代价敏感主动学习和半监督特征选择,研究发现分类器输出的不确定性与分类器泛化能力之间存在统计关系,通过理论分析和数值实验的方法证明了利用这个统计关系可明显减少误分类代价,显著改进半监督学习的分类性能,而且这种改进在大规模数据集上更为明显。基于MapReduce和随机上采样集成学习策略,提出了面向非平衡大数据极速学习机集成学习方法,很大程度上改进了已有的非均衡数据挖掘算法的性能。. 2. 提出了一种基于不确定性减少的大数据模型树(ELM-Tree)学习算法,该算法能有效的从大数据中挖掘分类规则。建立了一种基于MapReduce和投票机制的随机权网络样例选择方法,为大数据并行挖掘提供了一种行之有效的方法。研究了一种基于上积分的分类器融合方法,该方法利用效率测度进行数据分配,提供了一种确定模糊测度的有效策略,可有效提高分类学习系统的性能。. 3. 在电子健康档案大数据环境下的增量ELM研究中,建立了一种基于模糊积分的在线序列分类器集成学习方法,该方法可有效解决大数据集在线分类问题。提出了一种ELM增量矩阵伪逆的计算方法,可有效提高极限学习机的学习效率。基于项目组提出的针对大数据环境的ELM-Tree学习算法,开发了一个大数据学习平台ELM-Tree,该平台可适用于电子健康档案(混合类型)的大规模数据集的训练。. 项目研究迄今出版专著1部,完成学习系统一个,发表学术论文49篇。其中,SCI检索30篇,JCR一区TOP论文3篇,JCR二区论文18篇,高被引用论文5篇。这些研究成果丰富了非均衡大数据挖掘理论、算法及应用,对于非均衡大数据环境下的智能控制、决策支持和辅助诊断等具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
拥堵路网交通流均衡分配模型
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于Web的居民电子健康档案数据共享平台研究
医联体内电子健康档案垂直整合研究
基于电子健康档案(EHR)的社区健康管理HOPE模式的研究
电子健康档案系统中临床医生信息的集成与可视化研究