医疗文本大数据分析中的统计学模型和方法

基本信息
批准号:11771242
项目类别:面上项目
资助金额:48.00
负责人:邓柯
学科分类:
依托单位:清华大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:刘军,韩思蒙,徐崇元,杨洋,李艺超,徐嘉泽,李祺
关键词:
复杂数据分析文本数据因果推断大数据网络数据分析
结项摘要

In past 20 years, millions of Electronic Medical Records (EMRs) have been cumulated in China's hospitals. These EMRs record rich information on what patients have experienced in hospitals, and contain great values. However, the Chinese texts in these EMRs introduce great challenges in data analysis. For example, identification and standardization of medical terminologies and reconstruction of the medical scenario encoded by medical texts are both very challenging but also very important tasks in EMR analysis. In this project, we plan to study these challenging problems from the statistical perspective. We hope to build statistical models for mining Chinese medical texts and standardizing disease names, and investigate the statistical inference and computation of these models. We also want to connect the problem of medical text analysis with medical knowledge database, and establish a intelligent statistical framework with which the two sides can efficiently interact and help each other.

过去20年,我国的各个大型医院积累了数以亿计的“电子病历”档案。这些“电子病历”详细记录了病人在医院就诊过程中的大量信息,对它们的深入挖掘具有极高的科学和社会价值。但是,“电子病历”中以自然语言形式出现的中文文本给数据分析带来了极大的挑战。 例如,“对医学文本中的医学术语进行识别和标准化”、“对医学文本中的多维度医学信息进行有效整合以准确重构医学场景”都是医学大数据分析中的核心问题,也是极其困难的问题。本项目力图从统计学角度研究这些问题,建立针对中文电子病历文本分析的统计模型,和能够高效实现“疾病名称”标准化的统计模型,并解决其中的统计推断和统计计算问题。同时,探索构建能够使“医学文本分析”与“医学知识库”高效互动的统计学框架,以更有效地促进医学知识库系统的自我完善和医学自然语言的语意理解。

项目摘要

过去20年,我国的各个大型医院积累了数以亿计的“电子病历”档案。这些“电子病 历”详细记录了病人在医院就诊过程中的大量信息,对它们的深入挖掘具有极高的科学和 社会价值。但是,“电子病历”中以自然语言形式出现的中文文本给数据分析带来了极大 的挑战。 例如,“对医学文本中的医学术语进行识别和标准化”、“对医学文本中的多 维度医学信息进行有效整合以准确重构医学场景”都是医学大数据分析中的核心问题,也 是极其困难的问题。本项目力图从统计学角度研究这些问题,建立针对中文电子病历文本 分析的统计模型,和能够高效实现“疾病名称”标准化的统计模型,并解决其中的统计推 断和统计计算问题。同时,探索构建能够使“医学文本分析”与“医学知识库”高效互动 的统计学框架,以更有效地促进医学知识库系统的自我完善和医学自然语言的语意理解。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

邓柯的其他基金

批准号:11401338
批准年份:2014
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

医疗文本大数据中的无监督统计分词新方法研究

批准号:11801301
批准年份:2018
负责人:俞声
学科分类:A0403
资助金额:24.00
项目类别:青年科学基金项目
2

智慧医疗中大数据分析的基础理论和语义融合技术

批准号:U1609218
批准年份:2016
负责人:张彩明
学科分类:F0210
资助金额:210.00
项目类别:联合基金项目
3

面向医疗健康大数据分析的高效隐层空间学习方法研究

批准号:61673241
批准年份:2016
负责人:陈宁
学科分类:F0603
资助金额:63.00
项目类别:面上项目
4

基于云计算和MapReduce的区域医疗大数据分析关键技术研究

批准号:61572268
批准年份:2015
负责人:宋波
学科分类:F0211
资助金额:65.00
项目类别:面上项目