Through deep mining of characteristics of unstructured data in biomedicine literatures, the project focus on the key problems of theory oriented at disease-centric relationships parallel mining contains model training, model prediction, entity annotation and semantic mining. The project designs and implements text classification, analysis and processing model based on MapReduce. First, the text classification in biomedicine literatures in distributed parallel system is researched. The algorithms of model training and referring of parallel biomedical named entity recognition based on MapReduce are proposed. On this basis, we annotate and normalize of the disease mentions and concerned concepts. Then, we propose a parallel method to mine semantic disease-centric relations and hypothesis generation in the literature. The disease network building by the above methods could provide theory basis for predicting hypothesis among diseases, drugs.and gene functions. Finally, we implements parallel prototype system for analyzing and processing big data in biomedicine literatures. Hence, the general performance evaluation and testing of the theory model and prototype system based on mixed corpus would be carried out.
本项目旨在通过深入分析生物医学文本中非结构化数据的特点,研究面向疾病关系并行数据挖掘中模型训练、模型推断、实体标注以及语义挖掘等关键理论问题,设计并实现基于MapReduce的文本分类、分析和处理模型。首先将研究生物医学文献基于MapReduce的文本分类方法,提出基于MapReduce的并行化生物医学命名实体识别的模型训练及模型推断算法,并在此基础上对生物医学文本中的疾病和相关实体进行规范化标注。其次将提出生物医学文本中与疾病相关的语义关系挖掘和假设生成并行算法,构建基于文本大数据的疾病关系网络,为实现对疾病之间、疾病和基因、药物和基因、疾病和药物之间的假设生成进行预测提供理论基础。最后将实现生物医学文本大数据并行分析与处理原型系统,并基于混合语料测试集对本项目的理论和原型进行全面的性能评估与测试。
近年来,文本挖掘在生物医学领域引起了广泛的关注和研究。文本挖掘被认为是概念生物,驱动着生物医学探索的假设。文本挖掘的目标在于自动的从文献集合中发现小规模的假设。本项目针对生物医学文献建立大数据并行语义挖掘框架,以MEDLINE中的生物医学文本为处理对象,在Hadoop数据处理平台的基础上研究生物医学文本大数据中文本分类、命名实体识别、语义关系抽取等关键技术,解决生物医学文献数量巨大导致样本空间过大、命名实体识别训练时间过长、命名实体识别结果精度低、关系抽取精确度和召回率低等瓶颈问题。具体研究内容包括:1)在文本分类方面,研究Hadoop计算平台上的生物医学文献的LDA文本分类方法。2)在命名实体识别方面,研究Hadoop计算平台上的命名实体识别方法,主要包括:利用半马尔科夫条件随机域模型对生物医学文献进行命名实体识别,将模型扩展为两层,在每一层挖掘新的特征,将双层半马尔科夫条件随机域模型并行化,利用MapReduce框架提高L-BFGS算法在参数估计过程中的计算速度,利用MapReduce框架对Viterbi算法进行加速。3)在关系抽取方面,研究基于有向子图的深度挖掘算法,主要包括:在自建的GO_DO语料集上进行命名实体识别和本体标注,建立基于本体的网络,抽取有向子图,使用并行有向子图相似度计算方法来获得各本体概念之间的关联,采用扩展词典的后处理方法对本体概念之间的关联进行修正。构建疾病之间、疾病与基因功能关系、疾病与药物的可视化网络,利用基于语义的文献概念方法对实体之间的关系进行挖掘,在GO_DO语料集上进行实验,并对实验结果中揭示的实体之间的潜在关系进行验证。在资助期间,这三点研究计划均取得一定成果,通过对这三点的研究,生物医学文献的文本挖掘效率有了较大的提升。具体地,课题组提出采用双层半马尔科夫条件随机场模型对疾病本体进行标注。半马尔科夫条件随机场在实际预测的过程中效率非常低,对于实时查询来说,要求对输入的query 1s之内得到预测结果。课题组基于MapReduce,提出了一种优化的双层并行半马尔科夫条件随机场模型DP-Semi-CRFs。本课题解决了从在大数据平台上对生物医学文献进行文本分类、知识融合的问题。整体来看,通过三年的努力,已完成项目目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
粗颗粒土的静止土压力系数非线性分析与计算方法
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
中国参与全球价值链的环境效应分析
大数据环境下的文本挖掘并行处理技术研究
面向生物医学领域的文本挖掘技术研究与应用
基于数据挖掘的区域急诊疾病谱时空预测模型研究
汉语文本数据挖掘的统计方法