Mining association knowledge from big health care data is a key step for structuring information into knowledge, and provides import evidence for further automatic knowledge reasoning and personalized health clinics. Traditional data mining methods may reduce robustness and accuracy drastically when processing big data, while deep learning can overcome this obstacle and already be widely used in image recognition and speech recognition. However, in natural language processing domain, the structural complexity and semantic diversity of textual data makes it remains a tremendous challenge.. In addressing these problems, this research object, based on existent works, explores deep learning method for mining association knowledge from the targeted health care big data. Main contents include: definition of relation categories related to health care; transformation between sentence parsing tree models and graph models; semantic pruning strategies of graph models; design of deep neural networks; deep neural network based kernel trick for relation extraction; encapsulation of health care association knowledge. Key issues are the design of deep neural networks based on pruned subgraphs and the design of kernel function based on deep neural work.
从海量的健康管理数据中进行关联性知识挖掘是将信息转化为结构化知识的关键步骤,也为进一步的自动化知识推理和个性化健康诊疗提供了重要依据。传统的数据挖掘方法在处理海量数据时,健壮性和精确性都会受到很大影响,而深度学习方法能够克服这个难题,并已经在图像识别和语音识别领域被广泛应用。但在自然语言处理领域,文本数据的结构复杂性和语义多样性使得深度神经网络的设计依然是个巨大的挑战。. 针对这些问题,在已有工作的基础上,本课题将以健康管理的海量数据为目标对象,研究用深度学习的方法从其中挖掘出关联性知识,具体包括:健康管理相关的关系类别定义;句子的解析树模型与图模型的转化;图模型的语义剪枝策略;深度神经网络的设计;基于深度神经网络的核技巧关系抽取;健康管理关联型知识封装。其中,重点解决的问题是基于剪枝生成子图的深度神经网络设计以及基于深度神经网路的核函数设计。
在健康管理领域,知识挖掘技术能够用于将健康信息结构化,进而在构建健康管理本体、健康知识问答等方面发挥着重要作用。通常,知识挖掘包含两个方面:1) 首先是实体识别,它是指从各种信息来源中检测出实体指代并将其归类到一定的实体类别中;2)其次是语义关系识别,它是指识别并归类这些实体间可能存在的语义关系。信息医学界已经在实体识别研究上取得了重要成果;但在关系抽取研究上,现有的方法还局限于手动构建启发式的关系抽取规则或是手动收集关系抽取特征。在健康管理数据高速增长的今天,这种模式已经很难应付数据的海量性以及文本描述的多样性、歧义性。本课题拟针对健康管理数据的关联型知识挖掘问题,定制一套基于深度神经网络的方法,准确地识别/归类健康管理数据中蕴含的关系。.目前我们已经设计出一整套基于深度循环神经网络的通用关系抽取方法,其中一项成果(深度循环神经网络DRNNs)已被COLING2106收录。在关系抽取的国际通用基准测试集SemEval2010 task8上,深度循环神经网络关系抽取方法DRNNs取得了86.1%的F1-score,该指标达到了国际领先水平,超过了所有的竞争对手。该基于循环神经网络的关系抽取方法是通用和泛领域的,不仅仅可以用于医学领域,还可以扩展到各种商业领域,有很大推广价值。并且,该方法能够识别出概念与概念间的语义关系,是构建大型的知识库、知识图谱的重要手段之一。下一步还需要把该方法应用健康管理领域,实现该领域的关系抽取。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
黄河流域水资源利用时空演变特征及驱动要素
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
服务经济时代新动能将由技术和服务共同驱动
面向全基因组关联研究的动态数据挖掘与深度查询方法
面向特定领域文本的知识元及其关联挖掘方法研究
数据挖掘获取的知识的智能化管理研究
基于关联规则数据挖掘的营养健康信息化模型研究