Information extraction in biomedical text is one of the most important tasks in biomedical research. The current achievements of biomedical information extraction have a distance to real application and the performance of system cannot satisfy the practical requirements. In this study we aim to find effective methods based on ensemble learning to improve the performance of biomedical information extraction. A multi-Agent meta-learning framework is presented which incorporates multi-agent system and meta-learning method for the application of biomedical named entity recognition. Meta-agent and base learning agents are integrated with sensitive features set of corresponding named entity class according to local feature selection, which improve the system performance especially on minor classes. This approach effectively overcomes the disadvantages that only one model and global feature selection are used to identity all types of biomedical named entities. This study presents a combining approach on thansductive support vector machine (TSVM) and active learning algorithm for the extraction of protein-protein interaction (PPI) to solve such problems which were due to the lack of labeled corpora and make use of the vast amount of unlabeled biomedical free texts. Compared with the traditional support vector machine (SVM) and TSVM algorithm, our algorithm can immensely reduce the number of the training data and efficiently improve the performance of the classifier for PPI extraction. It provides a good solution for the future application.
本课题研究的主要内容是基于集成学习的生物医学文本信息抽取方法,以提高生物医学文本信息抽取的性能。生物医学文本信息抽取是生物医学研究中不可缺少的环节,但目前现有成果距离真正实用还有一定距离。本研究提出的面向生物医学命名实体识别的多Agent元学习框架,使用不同的学习Agent和局部特征选择法选择不同的敏感特征集合识别不同类别的命名实体类型,克服了使用单一学习算法选择相同特征集合识别所有命名实体类型的缺点,提高每一类的识别性能尤其是小类别识别的性能,系统性能明显优于基于单学习模型使用全局特征选择方法的识别系统。提出的面向生物医学命名实体关系识别的基于TSVM与主动学习融合的集成学习策略,在小规模已标注语料环境下比有监督学习方法更优越。这为今后的实际应用提供了一个较好的解决方案。
生物医学文本信息抽取是生物医学研究中不可缺少的环节。本研究采用集成学习策略,结合自然语言处理等相关技术,研究了生物医学文本信息抽取的关键技术。本课题将从以下四个方面开展研究工作: .在研究的第一方面,本项目进行了面向生物医学命名实体识别的特征提取和集成特征选择策略的研究。提出了基于支持度的集成特征选择算法,获取相关性和稳定性较高的特征子集,再使用封装式特征选择方法结合FCBF搜索策略进一步去除冗余特征和和弱相关的特征,获得最优的特征子集。实验结果表明该方法能够提高学习模型的泛化能力并能够有效识别生物医学命名实体。.在研究的第二方面,提出了一种面向生物医学命名实体识别的多Agent元学习集成学习策略。基层多个学习Agent分别识别不同类型的生物医学命名实体,并通过相关学习Agent之间的通信来交换有益信息以调节个体Agent的行为提高其学习性能,元层Agent综合决策基层学习Agent的学习结果以获得最终的识别结果。元层Agent和基层学习Agent通过局部特征选择法选择适合不同实体类别的敏感特征集合提高了总体识别性能尤其是小类别识别的性能。实验结果表明,我们提出的全新方法在生物医学命名实体识别上取得了优越的性能。.在研究的第三方面,本项目进行了面向生物医学命名实体关系识别的特征提取及异态元学习策略研究。该研究选择有效的特征集合,包括浅层语言学特征和深层句法特征,并在此基础上提出了基于异态元学习策略的分类器融合方法,充分利用了基于不同特征模型学习结果之间的互补性和相关性,进一步提高了实体相互作用关系识别的性能。.在研究的第四方面,针对已标注语料有限而未标注生物医学自由文本易得的问题,本文进行了基于直推式支持向量机与主动学习集成的生物医学命名实体关系抽取研究。通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能。实验结果表明,该算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
文本中信息的自动抽取方法研究
基于半监督学习和集成学习的文本分类方法研究
基于维语网络文本的事件抽取方法研究
基于知识库和深度学习的生物医学实体关系抽取研究