医疗对话文本中的信息抽取关键技术研究

基本信息

批准号：61906196

项目类别：青年科学基金项目

资助金额：25.00

负责人：张元哲

学科分类：

依托单位：中国科学院自动化研究所

批准年份：2019

结题年份：2022

起止时间：2020-01-01 - 2022-12-31

项目状态：已结题

项目参与者：

关键词：

知识图谱命名实体识别实体关系抽取

结项摘要

With the rapid development of China’s health and medical industry, electronical medical records (EMRs), the core component of the health and medical big data, has received more attention. Nowadays, EMRs rely on the manual entry of doctors, which consumes a lot of time and effort. To this end, this application proposes to extract medical information from the content of the doctor-patient conversation (i.e., medical dialogue text), to help generate the key content of EMRs directly. The application is aimed at generating EMRs from non-structured medical dialogue text, directed to the problems and difficulties in the information extraction process, with the goal of extracting structured medical information. The application studies the key technologies for medical information extraction in the field of Cardiology Department and Neurology Department, as they have a wide range of inquiry content. The research detail includes: 1) A method for constructing a medical knowledge graph framework for EMRs generation; 2) Medical dialogue text labeling system and large-scale corpus construction based on medical knowledge graph framework; 3) Automatic extraction methods for multi-category medical entities from the medical dialogue texts; 4) Automatic extraction method for multi-granularity medical attribute from the medical dialogue text. The research results of this application have reference significance for many problems in Natural Language Processing (NLP), and have wide practical significance for the intelligent application of big data in the health and medical field.

随着我国健康医疗领域信息化与智能化的迅速推进，作为健康医疗大数据重要组成部分的电子病历受到了更多的关注。目前，电子病历的产生依赖于医务工作者人工录入，需要耗费其大量的时间精力。为此，本申请提出，根据医生和患者交流的内容，即医疗对话文本，抽取其中的医学信息，以便直接生成电子病历的关键内容。本申请针对当前医疗对话文本信息抽取存在的问题，面向电子病历生成，以抽取结构化医学信息为目标，以非结构化的医疗对话文本为对象，以问诊内容丰富的心内科、神经内科为实验领域，研究医学信息抽取的关键技术。研究内容包括：1）构建面向电子病历生成的医学知识图谱框架；2）基于医学知识图谱框架的医疗对话文本标注及大规模语料建设；3）医疗对话文本中的多类别医学实体自动抽取方法；4）医疗对话文本中的多粒度医学属性自动抽取方法。本申请的研究成果对于自然语言理解的诸问题具有重要的借鉴意义，对健康医疗大数据的应用具有广泛的现实意义。

项目摘要

针对医疗对话文本信息抽取方面存在的中文医学知识图谱框架不成熟、医疗对话文本语料的获取困难、口语化带来的额外困难和医疗领域专业性等问题和难点，本项目以抽取结构化医学信息为目标，以非结构化的医疗对话文本为对象，研究医学信息抽取的关键技术，既定的研究内容主要有：1）构建面向电子病历生成的医学知识图谱框架的方法；2）基于医学知识图谱框架的医疗对话文本标注体系及大规模语料建设；3）医疗对话文本中的多类别医学实体自动抽取方法；4）医疗对话文本中的多粒度医学属性自动抽取方法。以上研究内容在项目执行时按照技术路线进行进一步划分，在医疗知识图谱构建和语料标注、医疗对话信息抽取关键技术和篇章级语义理解技术三个方面分别进行研究突破。在资助期间，项目取得了较多成果，积累了大量标注数据资源，形成了症状知识图谱和医疗对话信息抽取方法，研究成果对于医疗对话自然语言理解的诸问题具有重要的借鉴意义，对健康医疗大数据的智能化应用具有广泛的现实意义。整体来看，通过三年的努力，已完成项目目标。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.11897/SP.J.1016.2018.00886

发表时间：2018

DOI：10.7507/1672-2531.202012076

发表时间：2021

DOI：

发表时间：2018

DOI：

发表时间：2017

张元哲的其他基金

相似国自然基金

面向非结构化文本的大规模事件信息抽取关键技术研究

批准号：61806201

批准年份：2018

负责人：陈玉博

学科分类：F0606

资助金额：26.00

项目类别：青年科学基金项目

文本中信息的自动抽取方法研究

批准号：69375016

批准年份：1993

负责人：张永奎

学科分类：F03

资助金额：6.00

项目类别：面上项目

互联网藏文文本资源挖掘及语料抽取关键技术研究

批准号：61202219

批准年份：2012

负责人：刘汇丹

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

情感信息抽取的资源建设及关键技术研究

批准号：61375073

批准年份：2013

负责人：李寿山

学科分类：F03

资助金额：78.00

项目类别：面上项目

医疗对话文本中的信息抽取关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于改进LinkNet的寒旱区遥感图像河流识别方法

WMTL-代数中的蕴涵滤子及其应用

口腔扁平苔藓研究热点前沿的可视化分析

相关系数SVD增强随机共振的单向阀故障诊断

基于小波高阶统计量的数字图像来源取证方法

张元哲的其他基金

相似国自然基金