As the rapid adoption of electronic medical records in hospitals, a huge amount of clinical data is collected. Secondary use of those data is a critical step to further build up data-driven clinical applications. However, a large proportion of such data is free-text, written in natural language, which cannot be directly processed by data mining algorithms. Clinical natural language processing (NLP) aims at analyzing such kind of text, transforming the unstructured free-text to structured data repositories, but research progress in Chinese clinical NLP is rather limited. With the advances in artificial intelligence, especially machine learning, clinical NLP faces new opportunities. This project is an exploration of how the cutting-edge deep learning and transfer learning technologies can be used in clinical NLP. In this project, our first objective is to create deep neural networks for two of the critical clinical NLP tasks: named entity recognition and relation identification. The second and third aim of this project is to use transfer learning to overcome the heterogeneousity of clinical notes. We solve the problem by transferring knowledge from one disease to the other, to decrease the demand of costly creation of training corpus, hence speeding up clinical NLP research significantly.
随着医院的快速信息化,大量的电子病历数据在医院里被沉淀下来。对这些数据的分析和利用,是进一步产生大数据临床应用的关键。然而,因为病历中有大量非结构化自然语言文本,机器无法自动解析,给数据挖掘造成了巨大阻碍。医学自然语言处理(NLP)技术主要目的即在于对病历等医学文本进行解析,从而把非结构化的文本数据转变成可利用、可解析的结构化数据。但在中文医疗领域,进展非常有限。最近以机器学习为代表的人工智能技术的兴起,给医学NLP的研究创造了新的技术条件。本项目的研究是深度学习和迁移学习技术在医学自然语言领域的一个前沿性的探索。本项目将首先着重于使用最新的深度学习技术解决医学NLP中的两个关键问题:命名实体识别和语义关联识别。同时,为解决不同疾病、科室间病历的异质性问题,采用机器学习理论中最新的迁移学习方法进行建模,使得对病历的解析能够极大地降低对大规模训练语料的依赖性,从而使得相关的研究可以大为加速。
最近十几年,全世界已经积累了大量的医疗数据,这些医疗类尤其是临床类数据中,蕴藏着大量尚未挖掘出来的医学知识,但这些知识有很大一部分是以非结构化的自然语言文本形式作为载体。由于医学自然语言的专业性和二义性,在医学领域的自然语言处理尤其存在巨大的挑战。其中一个挑战就是方法的泛化性能,系统能力受到训练数据的局限。本研究探索采用机器学习理论中最新的迁移学习方法进行建模,使得对病历的解析能够极大地降低对大规模训练语料的依赖性,从而产生具有高泛化性能,构建成本相对较低的医学自然语言处理系统。. 研究内容上,本研究从医学自然语言处理的现状、趋势和特点等国内最新研究的现状出发,研究各种医疗健康数据的产生特点和挖掘方法,然后基于医疗论坛上的医疗健康数据,以及各种途径获得的其他医疗健康数据集,探索了各种深度学习和迁移学习的方法,重点针对文本匹配构建了基于新研发的迁移学习方法的疾病问答系统,同时对学科建设,新技术的应用和人才培养进行了一定探讨。. 在研究成果上,本研究的成果较为丰硕,在文章发表方面,以第一作者或通讯作者已发表相关的标注基金委资助的期刊文章31篇,还有4篇在投SCI,以及2篇已经录取正在排期发表的中文文章(已发表文章中包括SCI文章21篇,英文会议6篇,中文文章4篇。其中4篇SCI文章发表在医学信息学排名前1-2位的杂志,1篇发表在医学信息学领域排名第3-4的杂志,2篇发表在移动医疗领域排名第1的杂志;1篇SCI获得JCR的高被引,暨排名“临床医学”大类下全世界引用前1%);在人才培养方面,成功培养了4名北大医学信息学的硕士研究生,协同培养了1名外校国内博士研究生,2名外校国内硕士研究生;在国内外交流方面,受邀出访英国参加伦敦大学学院、剑桥大学的学术交流2次,邀请NIH的专家到国内访问交流一次;在学科建设和学术影响力方面,作为主席,主持了四次关于自然语言处理的全国评测大会;受邀校内校外做报告20余次,参编北大健康医疗大数据国家研究院詹启敏院士主审的国内健康数据科学的第一本教材《健康数据科学导论》1部。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于弱监督和迁移学习的深度文本理解模型学习方法
基于深度学习的文本和语音多模态数据挖掘研究
基于深度迁移学习的跨领域文本情感分类方法研究
基于核矩阵学习的半结构化文本挖掘研究