基于深度学习和迁移学习的非结构化临床文本挖掘的方法探索

基本信息
批准号:81771937
项目类别:面上项目
资助金额:60.00
负责人:雷健波
学科分类:
依托单位:北京大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:张辉,张伟楠,张少典,文栋,张兴厅,沈键
关键词:
文本挖掘命名实体识别自然语言处理深度学习迁移学习
结项摘要

As the rapid adoption of electronic medical records in hospitals, a huge amount of clinical data is collected. Secondary use of those data is a critical step to further build up data-driven clinical applications. However, a large proportion of such data is free-text, written in natural language, which cannot be directly processed by data mining algorithms. Clinical natural language processing (NLP) aims at analyzing such kind of text, transforming the unstructured free-text to structured data repositories, but research progress in Chinese clinical NLP is rather limited. With the advances in artificial intelligence, especially machine learning, clinical NLP faces new opportunities. This project is an exploration of how the cutting-edge deep learning and transfer learning technologies can be used in clinical NLP. In this project, our first objective is to create deep neural networks for two of the critical clinical NLP tasks: named entity recognition and relation identification. The second and third aim of this project is to use transfer learning to overcome the heterogeneousity of clinical notes. We solve the problem by transferring knowledge from one disease to the other, to decrease the demand of costly creation of training corpus, hence speeding up clinical NLP research significantly.

随着医院的快速信息化,大量的电子病历数据在医院里被沉淀下来。对这些数据的分析和利用,是进一步产生大数据临床应用的关键。然而,因为病历中有大量非结构化自然语言文本,机器无法自动解析,给数据挖掘造成了巨大阻碍。医学自然语言处理(NLP)技术主要目的即在于对病历等医学文本进行解析,从而把非结构化的文本数据转变成可利用、可解析的结构化数据。但在中文医疗领域,进展非常有限。最近以机器学习为代表的人工智能技术的兴起,给医学NLP的研究创造了新的技术条件。本项目的研究是深度学习和迁移学习技术在医学自然语言领域的一个前沿性的探索。本项目将首先着重于使用最新的深度学习技术解决医学NLP中的两个关键问题:命名实体识别和语义关联识别。同时,为解决不同疾病、科室间病历的异质性问题,采用机器学习理论中最新的迁移学习方法进行建模,使得对病历的解析能够极大地降低对大规模训练语料的依赖性,从而使得相关的研究可以大为加速。

项目摘要

最近十几年,全世界已经积累了大量的医疗数据,这些医疗类尤其是临床类数据中,蕴藏着大量尚未挖掘出来的医学知识,但这些知识有很大一部分是以非结构化的自然语言文本形式作为载体。由于医学自然语言的专业性和二义性,在医学领域的自然语言处理尤其存在巨大的挑战。其中一个挑战就是方法的泛化性能,系统能力受到训练数据的局限。本研究探索采用机器学习理论中最新的迁移学习方法进行建模,使得对病历的解析能够极大地降低对大规模训练语料的依赖性,从而产生具有高泛化性能,构建成本相对较低的医学自然语言处理系统。. 研究内容上,本研究从医学自然语言处理的现状、趋势和特点等国内最新研究的现状出发,研究各种医疗健康数据的产生特点和挖掘方法,然后基于医疗论坛上的医疗健康数据,以及各种途径获得的其他医疗健康数据集,探索了各种深度学习和迁移学习的方法,重点针对文本匹配构建了基于新研发的迁移学习方法的疾病问答系统,同时对学科建设,新技术的应用和人才培养进行了一定探讨。. 在研究成果上,本研究的成果较为丰硕,在文章发表方面,以第一作者或通讯作者已发表相关的标注基金委资助的期刊文章31篇,还有4篇在投SCI,以及2篇已经录取正在排期发表的中文文章(已发表文章中包括SCI文章21篇,英文会议6篇,中文文章4篇。其中4篇SCI文章发表在医学信息学排名前1-2位的杂志,1篇发表在医学信息学领域排名第3-4的杂志,2篇发表在移动医疗领域排名第1的杂志;1篇SCI获得JCR的高被引,暨排名“临床医学”大类下全世界引用前1%);在人才培养方面,成功培养了4名北大医学信息学的硕士研究生,协同培养了1名外校国内博士研究生,2名外校国内硕士研究生;在国内外交流方面,受邀出访英国参加伦敦大学学院、剑桥大学的学术交流2次,邀请NIH的专家到国内访问交流一次;在学科建设和学术影响力方面,作为主席,主持了四次关于自然语言处理的全国评测大会;受邀校内校外做报告20余次,参编北大健康医疗大数据国家研究院詹启敏院士主审的国内健康数据科学的第一本教材《健康数据科学导论》1部。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

DOI:10.6041/j.issn.1000-1298.2022.07.022
发表时间:2022
2

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

DOI:
发表时间:2021
3

TRPV1/SIRT1介导吴茱萸次碱抗Ang Ⅱ诱导的血管平滑肌细胞衰老

TRPV1/SIRT1介导吴茱萸次碱抗Ang Ⅱ诱导的血管平滑肌细胞衰老

DOI:10.3969/j.issn.1001-1978.2022.02.019
发表时间:2022
4

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
5

基于小波高阶统计量的数字图像来源取证方法

基于小波高阶统计量的数字图像来源取证方法

DOI:
发表时间:2017

相似国自然基金

1

基于弱监督和迁移学习的深度文本理解模型学习方法

批准号:61876144
批准年份:2018
负责人:管子玉
学科分类:F0606
资助金额:62.00
项目类别:面上项目
2

基于深度学习的文本和语音多模态数据挖掘研究

批准号:61672301
批准年份:2016
负责人:裴志利
学科分类:F0605
资助金额:62.00
项目类别:面上项目
3

基于深度迁移学习的跨领域文本情感分类方法研究

批准号:61906110
批准年份:2019
负责人:赵传君
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目
4

基于核矩阵学习的半结构化文本挖掘研究

批准号:60642001
批准年份:2006
负责人:杨建武
学科分类:F0211
资助金额:7.00
项目类别:专项基金项目