医疗对话文本中的信息抽取关键技术研究

基本信息
批准号:61906196
项目类别:青年科学基金项目
资助金额:25.00
负责人:张元哲
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
知识图谱命名实体识别实体关系抽取
结项摘要

With the rapid development of China’s health and medical industry, electronical medical records (EMRs), the core component of the health and medical big data, has received more attention. Nowadays, EMRs rely on the manual entry of doctors, which consumes a lot of time and effort. To this end, this application proposes to extract medical information from the content of the doctor-patient conversation (i.e., medical dialogue text), to help generate the key content of EMRs directly. The application is aimed at generating EMRs from non-structured medical dialogue text, directed to the problems and difficulties in the information extraction process, with the goal of extracting structured medical information. The application studies the key technologies for medical information extraction in the field of Cardiology Department and Neurology Department, as they have a wide range of inquiry content. The research detail includes: 1) A method for constructing a medical knowledge graph framework for EMRs generation; 2) Medical dialogue text labeling system and large-scale corpus construction based on medical knowledge graph framework; 3) Automatic extraction methods for multi-category medical entities from the medical dialogue texts; 4) Automatic extraction method for multi-granularity medical attribute from the medical dialogue text. The research results of this application have reference significance for many problems in Natural Language Processing (NLP), and have wide practical significance for the intelligent application of big data in the health and medical field.

随着我国健康医疗领域信息化与智能化的迅速推进,作为健康医疗大数据重要组成部分的电子病历受到了更多的关注。目前,电子病历的产生依赖于医务工作者人工录入,需要耗费其大量的时间精力。为此,本申请提出,根据医生和患者交流的内容,即医疗对话文本,抽取其中的医学信息,以便直接生成电子病历的关键内容。本申请针对当前医疗对话文本信息抽取存在的问题,面向电子病历生成,以抽取结构化医学信息为目标,以非结构化的医疗对话文本为对象,以问诊内容丰富的心内科、神经内科为实验领域,研究医学信息抽取的关键技术。研究内容包括:1)构建面向电子病历生成的医学知识图谱框架;2)基于医学知识图谱框架的医疗对话文本标注及大规模语料建设;3)医疗对话文本中的多类别医学实体自动抽取方法;4)医疗对话文本中的多粒度医学属性自动抽取方法。本申请的研究成果对于自然语言理解的诸问题具有重要的借鉴意义,对健康医疗大数据的应用具有广泛的现实意义。

项目摘要

针对医疗对话文本信息抽取方面存在的中文医学知识图谱框架不成熟、医疗对话文本语料的获取困难、口语化带来的额外困难和医疗领域专业性等问题和难点,本项目以抽取结构化医学信息为目标,以非结构化的医疗对话文本为对象,研究医学信息抽取的关键技术,既定的研究内容主要有:1)构建面向电子病历生成的医学知识图谱框架的方法;2)基于医学知识图谱框架的医疗对话文本标注体系及大规模语料建设;3)医疗对话文本中的多类别医学实体自动抽取方法;4)医疗对话文本中的多粒度医学属性自动抽取方法。以上研究内容在项目执行时按照技术路线进行进一步划分,在医疗知识图谱构建和语料标注、医疗对话信息抽取关键技术和篇章级语义理解技术三个方面分别进行研究突破。在资助期间,项目取得了较多成果,积累了大量标注数据资源,形成了症状知识图谱和医疗对话信息抽取方法,研究成果对于医疗对话自然语言理解的诸问题具有重要的借鉴意义,对健康医疗大数据的智能化应用具有广泛的现实意义。整体来看,通过三年的努力,已完成项目目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

张元哲的其他基金

相似国自然基金

1

面向非结构化文本的大规模事件信息抽取关键技术研究

批准号:61806201
批准年份:2018
负责人:陈玉博
学科分类:F0606
资助金额:26.00
项目类别:青年科学基金项目
2

文本中信息的自动抽取方法研究

批准号:69375016
批准年份:1993
负责人:张永奎
学科分类:F03
资助金额:6.00
项目类别:面上项目
3

互联网藏文文本资源挖掘及语料抽取关键技术研究

批准号:61202219
批准年份:2012
负责人:刘汇丹
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
4

情感信息抽取的资源建设及关键技术研究

批准号:61375073
批准年份:2013
负责人:李寿山
学科分类:F03
资助金额:78.00
项目类别:面上项目