基于弱监督学习的细粒度中医临床医学实体识别方法研究

基本信息
批准号:61501063
项目类别:青年科学基金项目
资助金额:19.00
负责人:王亚强
学科分类:
依托单位:成都信息工程大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:舒红平,郑皎凌,唐聃,文立玉,高燕,杜晓宇,文俊,郭艳珍,郭亚玲
关键词:
语义信息中医信息获取语义建模中医信息处理语义关联
结项摘要

Medical entity recognition from clinical records of traditional Chinese medicine (TCM) is the key to achieve better understanding of the semi-structure and unstructured clinical records based on computer. Most of the currently existing methods used to recognize medical entities from clinical records of TCM are based on supervised sequential models which need satisfy strong supervision assumption, and they recognize the medical entities directly through chunking in coarse-grained forms. While these methods have some disadvantages that (1) they cannot appropriately and accurately recognize the composite entities which are frequently appear in clinical records of TCM; (2) it is impossible to construct a training dataset which satisfy the strong supervision assumption in practice. Recently, we find that weakly-supervised learning and fine-grained entity recognition methods could be used to cover these disadvantages. Therefore, in this project, we would study on the methods of fine grained medical entity recognition from clinical records of TCM based on weakly-supervised learning. It would provide new ideas and methods for other researchers who are working on medical entity recognition from clinical records of TCM in the field of TCM information acquisition and processing. Moreover, we expect that our research would promote the development of the field.

中医临床医学实体识别是实现计算机准确地理解半结构化和非结构化中医临床记录的关键任务。目前中医临床医学实体识别主要基于需要满足“强监督假设”条件的训练数据,构建有监督序列化模型,采用语块划分的方法直接从中医临床记录中识别粗粒度的医学实体。该类方法存在(1)复合型中医临床医学实体识别结果不能准确表示;(2)充分满足“强监督假设”条件的训练数据在实际条件下难以构建的问题。根据前期研究发现,弱监督学习和细粒度命名实体识别方法是解决中医临床医学实体识别现存问题的重要手段。因此,本课题拟以中医临床记录中的“主诉和现病史”为研究载体,以其中包含的中医临床医学实体(如症状实体、疾病实体等)为研究对象,依据弱监督学习和细粒度命名实体识别方法的框架和最新成果,开展对高效、鲁棒且实用的中医临床医学实体识别模型和算法的研究。从而,为中医临床医学实体识别提供新思路和新方法,推进中医信息获取与处理领域的研究进展。

项目摘要

中医临床医学实体识别是实现计算机精准地理解半结构化和非结构化中医临床临床记录的关键任务。目前,中医临床医学实体识别主要基于需满足“强监督假设”条件的训练数据,构建有监督序列化模型,采用语块划分的方法从中医临床记录中识别中医学实体。该类方法主要存在(1)复合型的中医临床医学实体其层次结构描述不能准确表示,包含的不同粒度和层级的实体描述不能准确识别;(2)在实践中构建专家满意度一致且充分满足“强监督假设”条件的训练数据耗时、费力且难度大。.本项目开展了以中医临床记录中“主诉和现病史”为载体,以其中包含的中医学症状和证候为研究对象,采用远程监督学习实现利用英文词素级“中-英”翻译对齐信息来远程指导中医细粒度命名实体识别;采用主动学习实现仅借助少量的专家标注即完成大量带标注训练数据的构建;采用部分监督学习方法,基于对抗学习框架,实现伪训练样本生成,进而实现主动学习过程中模型的加速训练;基于实例迁移学习方法,借助大规模一般领域的中文文本数据,仅利用有限的中医临床记录数据,训练高质量的中医细粒度实体词嵌入。.通过实验得到以下重要结果:(1)将中医学命名实体的英文翻译词素与中文字的对齐可作为中医细粒度实体分割的含噪声远程指导信息,用于中医临床记录中的细粒度医学实体识别,该方法的F值可达到91.77%,接近采用人工构建同等规模训练数据所能达到的水平;(2)采用主动学习方法可以提升大规模带标注训练数据获取效率,达到同样分词和实体识别性能结果时,仅需要人工标注有监督学习所需数据规模的三分之一,采用对抗学习生成伪训练样例可以加速模型训练,还能够提高F值3%;(3)在中医临床记录数据有限的条件下,采用实例迁移学习方法,借助一般领域中文文本数据,可以提升中医细粒度实体词嵌入学习质量。项目成果为中医临床记录数据有限条件下开展语义表示学习和细粒度命名实体识别研究的开展奠定良好基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
5

环境信息披露会影响分析师盈余预测吗?

环境信息披露会影响分析师盈余预测吗?

DOI:
发表时间:2017

王亚强的其他基金

批准号:41275167
批准年份:2012
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

基于弱监督学习的中文古籍识别方法研究

批准号:61573355
批准年份:2015
负责人:殷飞
学科分类:F0605
资助金额:67.00
项目类别:面上项目
2

基于弱监督学习的网络社交用户兴趣识别方法研究

批准号:61303103
批准年份:2013
负责人:李岩
学科分类:F0214
资助金额:25.00
项目类别:青年科学基金项目
3

基于自步式弱监督学习的高分遥感细粒度目标检测与识别

批准号:61701415
批准年份:2017
负责人:姚西文
学科分类:F0113
资助金额:27.00
项目类别:青年科学基金项目
4

基于弱监督学习的不精确标注水下声音事件识别方法研究

批准号:61806214
批准年份:2018
负责人:王得志
学科分类:F0604
资助金额:21.00
项目类别:青年科学基金项目