基于知识库和深度学习的生物医学实体关系抽取研究

基本信息
批准号:61772109
项目类别:面上项目
资助金额:63.00
负责人:周惠巍
学科分类:
依托单位:大连理工大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:马昆,杜磊,林英玉,夏之秋,巨然,徐俊利,杨云龙,宁时贤,刘壮
关键词:
关系抽取深度学习表示学习知识表示实体识别
结项摘要

The research on biomedical entity relation extraction is one of the main tasks in the precision treatment era. It is of essential importance to the clinical disease diagnosis, treatment and drug development. Large-scale biomedical knowledge bases and vast amounts of biomedical literature provide strong support for biomedical entity relation extraction. The research on knowledge representation learning which integrating information about entities and relations in biomedical dictionaries, knowledge bases and literature, is of important theoretical meaning and practical value on entity relation extraction. In this project, biomedical dictionaries are exploited to learn precise and complete representation of biomedical entities based on autoencoder first. Then, in order to improve representation distinguishing ability, biomedical knowledge bases and literature are used to learn knowledge representation of entity fusion and relation fusion based on translation-based model and distant supervision learning. Finally, both knowledge representation and linguistic features are employed to recognize biomedical entities and extract their relations based on deep learning, aiming at improving the precision and coverage of biomedical entity relation extraction. In a word, this research on representation learning based on multi-source heterogeneous information from dictionaries, knowledge bases and literature, will provide the theoretical foundation and the specific methods for the acquisition and integration of knowledge in biomedical information extraction. The research on biomedical entity relation extraction will contribute to deeper understanding of life activities, and promote the development of life sciences.

生物医学实体关系抽取研究是精准医疗时代的主要任务,对临床疾病的诊断、治疗和药物的研制具有重要意义。大规模的生物医学知识库和海量生物医学文本为生物医学实体关系抽取提供了有力的支持。融合生物医学词典、知识库和文本中有关于实体和关系的信息,开展知识表示学习研究,对于实体关系抽取具有重要的理论意义和实际应用价值。本项目首先利用生物医学词典,基于自动编码机,学习准确、完备的生物医学实体表示;然后利用生物医学知识库和海量文本,基于翻译模型和远程监督学习,实现实体融合和关系融合的知识表示,提高知识表示的区分能力;最后基于深度学习,综合利用知识表示和语言学特征,识别生物医学实体并抽取实体关系,提升实体关系抽取准确性和覆盖面。基于词典、知识库和文本等多源异质信息的知识表示学习研究,将为生物信息抽取中知识的获取、融合提供理论基础和方法支撑;研究生物实体关系抽取将有助于更深层次认识生命活动,促进生命科学的发展。

项目摘要

生物医学实体关系抽取研究是精准医疗时代的主要任务,对临床疾病的诊断、治疗和药物的研制具有重要意义。大规模的生物医学知识库和海量生物医学文本为生物医学实体关系抽取提供了有力的知识。. 项目围绕基于知识的生物医学实体识别和关系抽取展开深入研究。研究内容包括:基于生物医学词典的实体表示学习、融合生物医学知识库和文本信息的知识表示学习、知识增强的生物医学实体识别和链接、基于知识表示的生物医学实体关系抽取等相关研究。取得的主要研究成果:(1)提出将生物医学词典的结构知识,作为向量空间上的约束,采用自动编码机学习获得高质量的实体表示;(2)提出基于全局上下文增强图卷积网络和远程监督相结合的知识表示学习,获得融合生物医学知识库和文本信息的知识表示;(3)提出基于标签迭代纠错、基于伪平行语料纠错的生物医学命名实体识别,基于实体ID表示拓展的Transformer实体链接,获得有知识的实体识别和链接模型;(4)提出基于上下文和知识表示融合的药物疾病关系抽取、基于先验知识记忆网络的蛋白质交互关系抽取、基于知识指导卷积网络的药物疾病关系抽取、基于知识注意力网络的蛋白质交互关系抽取、基于依存信息和先验知识的药物疾病关系抽取、基于知识选择的蛋白质交互关系抽取等,获得知识引导的实体关系抽取模型,并构建实体关系抽取平台。. 项目研究在BioCreative VI Bio-ID语料库上的实体识别取得了91.26 %的最优F1值;实体链接取得了最优的44.5%微平均F1值和41.7%宏平均F1值;在BioCreative VI PPI蛋白质关系抽取任务上取得了37.67%的最优F1值,在BioCreative V CDR药物诱导疾病关系抽取任务上取得了最佳的71.28%的最优F1值。. 基于多源异质信息的知识表示学习研究,为知识获取、融合提供了理论基础和方法支撑;生物实体关系抽取研究有助于更深层次认识生命活动,促进生命科学的发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

周惠巍的其他基金

相似国自然基金

1

开放获取生物医学文献的实体关系抽取

批准号:61602207
批准年份:2016
负责人:丰小月
学科分类:F0607
资助金额:20.00
项目类别:青年科学基金项目
2

基于深度神经网络的实体关系抽取关键技术研究

批准号:61602059
批准年份:2016
负责人:曾道建
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
3

基于集成学习的生物医学文本信息抽取方法研究

批准号:61402099
批准年份:2014
负责人:王浩畅
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目
4

融合语义控制实体识别和结构化要素识别的生物医学事件抽取

批准号:61672126
批准年份:2016
负责人:李丽双
学科分类:F0211
资助金额:63.00
项目类别:面上项目