In past 20 years, millions of Electronic Medical Records (EMRs) have been cumulated in China's hospitals. These EMRs record rich information on what patients have experienced in hospitals, and contain great values. However, the Chinese texts in these EMRs introduce great challenges in data analysis. For example, identification and standardization of medical terminologies and reconstruction of the medical scenario encoded by medical texts are both very challenging but also very important tasks in EMR analysis. In this project, we plan to study these challenging problems from the statistical perspective. We hope to build statistical models for mining Chinese medical texts and standardizing disease names, and investigate the statistical inference and computation of these models. We also want to connect the problem of medical text analysis with medical knowledge database, and establish a intelligent statistical framework with which the two sides can efficiently interact and help each other.
过去20年,我国的各个大型医院积累了数以亿计的“电子病历”档案。这些“电子病历”详细记录了病人在医院就诊过程中的大量信息,对它们的深入挖掘具有极高的科学和社会价值。但是,“电子病历”中以自然语言形式出现的中文文本给数据分析带来了极大的挑战。 例如,“对医学文本中的医学术语进行识别和标准化”、“对医学文本中的多维度医学信息进行有效整合以准确重构医学场景”都是医学大数据分析中的核心问题,也是极其困难的问题。本项目力图从统计学角度研究这些问题,建立针对中文电子病历文本分析的统计模型,和能够高效实现“疾病名称”标准化的统计模型,并解决其中的统计推断和统计计算问题。同时,探索构建能够使“医学文本分析”与“医学知识库”高效互动的统计学框架,以更有效地促进医学知识库系统的自我完善和医学自然语言的语意理解。
过去20年,我国的各个大型医院积累了数以亿计的“电子病历”档案。这些“电子病 历”详细记录了病人在医院就诊过程中的大量信息,对它们的深入挖掘具有极高的科学和 社会价值。但是,“电子病历”中以自然语言形式出现的中文文本给数据分析带来了极大 的挑战。 例如,“对医学文本中的医学术语进行识别和标准化”、“对医学文本中的多 维度医学信息进行有效整合以准确重构医学场景”都是医学大数据分析中的核心问题,也 是极其困难的问题。本项目力图从统计学角度研究这些问题,建立针对中文电子病历文本 分析的统计模型,和能够高效实现“疾病名称”标准化的统计模型,并解决其中的统计推 断和统计计算问题。同时,探索构建能够使“医学文本分析”与“医学知识库”高效互动 的统计学框架,以更有效地促进医学知识库系统的自我完善和医学自然语言的语意理解。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
医疗文本大数据中的无监督统计分词新方法研究
智慧医疗中大数据分析的基础理论和语义融合技术
面向医疗健康大数据分析的高效隐层空间学习方法研究
基于云计算和MapReduce的区域医疗大数据分析关键技术研究