With the rapid development of China’s health and medical industry, electronical medical records (EMRs), the core component of the health and medical big data, has received more attention. Nowadays, EMRs rely on the manual entry of doctors, which consumes a lot of time and effort. To this end, this application proposes to extract medical information from the content of the doctor-patient conversation (i.e., medical dialogue text), to help generate the key content of EMRs directly. The application is aimed at generating EMRs from non-structured medical dialogue text, directed to the problems and difficulties in the information extraction process, with the goal of extracting structured medical information. The application studies the key technologies for medical information extraction in the field of Cardiology Department and Neurology Department, as they have a wide range of inquiry content. The research detail includes: 1) A method for constructing a medical knowledge graph framework for EMRs generation; 2) Medical dialogue text labeling system and large-scale corpus construction based on medical knowledge graph framework; 3) Automatic extraction methods for multi-category medical entities from the medical dialogue texts; 4) Automatic extraction method for multi-granularity medical attribute from the medical dialogue text. The research results of this application have reference significance for many problems in Natural Language Processing (NLP), and have wide practical significance for the intelligent application of big data in the health and medical field.
随着我国健康医疗领域信息化与智能化的迅速推进,作为健康医疗大数据重要组成部分的电子病历受到了更多的关注。目前,电子病历的产生依赖于医务工作者人工录入,需要耗费其大量的时间精力。为此,本申请提出,根据医生和患者交流的内容,即医疗对话文本,抽取其中的医学信息,以便直接生成电子病历的关键内容。本申请针对当前医疗对话文本信息抽取存在的问题,面向电子病历生成,以抽取结构化医学信息为目标,以非结构化的医疗对话文本为对象,以问诊内容丰富的心内科、神经内科为实验领域,研究医学信息抽取的关键技术。研究内容包括:1)构建面向电子病历生成的医学知识图谱框架;2)基于医学知识图谱框架的医疗对话文本标注及大规模语料建设;3)医疗对话文本中的多类别医学实体自动抽取方法;4)医疗对话文本中的多粒度医学属性自动抽取方法。本申请的研究成果对于自然语言理解的诸问题具有重要的借鉴意义,对健康医疗大数据的应用具有广泛的现实意义。
针对医疗对话文本信息抽取方面存在的中文医学知识图谱框架不成熟、医疗对话文本语料的获取困难、口语化带来的额外困难和医疗领域专业性等问题和难点,本项目以抽取结构化医学信息为目标,以非结构化的医疗对话文本为对象,研究医学信息抽取的关键技术,既定的研究内容主要有:1)构建面向电子病历生成的医学知识图谱框架的方法;2)基于医学知识图谱框架的医疗对话文本标注体系及大规模语料建设;3)医疗对话文本中的多类别医学实体自动抽取方法;4)医疗对话文本中的多粒度医学属性自动抽取方法。以上研究内容在项目执行时按照技术路线进行进一步划分,在医疗知识图谱构建和语料标注、医疗对话信息抽取关键技术和篇章级语义理解技术三个方面分别进行研究突破。在资助期间,项目取得了较多成果,积累了大量标注数据资源,形成了症状知识图谱和医疗对话信息抽取方法,研究成果对于医疗对话自然语言理解的诸问题具有重要的借鉴意义,对健康医疗大数据的智能化应用具有广泛的现实意义。整体来看,通过三年的努力,已完成项目目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
服务经济时代新动能将由技术和服务共同驱动
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
面向非结构化文本的大规模事件信息抽取关键技术研究
文本中信息的自动抽取方法研究
互联网藏文文本资源挖掘及语料抽取关键技术研究
情感信息抽取的资源建设及关键技术研究