基于自然语言处理技术的生物实体语义网络研究和应用

基本信息

批准号：61202304

项目类别：青年科学基金项目

资助金额：25.00

负责人：魏小梅

学科分类：

依托单位：华中农业大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：黄钰,李芳芳,胡滨,章程,陈芳

关键词：

抽取本体语义生物实体机器学习

结项摘要

We focus on the extraction of semantic relations between biomedical entities such as proteins, gene and disease in this project. And on the basis of semantic relations a semantic network is created and visualized. Our research takes the following procedures: annotating resources based on entity relations; building extraction model of entity relations;extracting relations and building semantic relation network;exploring novel approaches in discovering entity relation;pursuing the evolving tendency of relation network changing with the corpus along the timeline and discovering new dimensions in biomedicine; applying entity relation network in the diagnosis of breast cancer. In accordance with the characteristics of the domain and the object of research, we integrate the techniques of natural language processing and multi-kernel learning in this project. We adopt the open-ended biomedical texts as the corpus of the research. First we process the texts by the techniques of natural language processing. After initial processing, we acquire the syntax parsing tree and dependency graph. Then we extract the features from the sentence parsing outcomes. We adopt Smith-Waterman algorithm to extract semantic relations out of entities. The semantic network is built on the semantic relations. Finally, we will apply the semantic network to adjuvant diagnosis of early breast cancer. Meanwhile, we will test and estimate our system on open data.

本项目研究并抽取生物文献中命名实体（蛋白质、基因和疾病）之间的语义关系，并建立面向疾病的语义关系网络，将网络以可视化的形式展示。我们需要做的工作有：标注相关的实体关系资源；研究和建立实体关系抽取模型；抽取关系并建立实体语义关系网络；研究发现新的实体关系的方法；研究关系网络随语料时段变化的演化趋势，发现生物研究热点；将实体关系网络应用于乳腺肿瘤的诊断和研究。根据研究领域和研究对象的特点，为了实现以上目标，我们采用基于自然语言处理的方法结合多核学习的机器学习技术研究本项目。具体是以开放的生物文献为研究对象，首先采用自然语言处理技术对文本进行处理，获得句法解析树和依存图，然后利用解析结果得到合适的句法和语义特征，采用基于Simth-Waterman算法的复合核函数抽取实体之间的语义关系，构建语义网络，我们将对抽取的语义网络应用到乳腺肿瘤的早期辅助诊断。我们还将对结果利用公开数据进行评估。

项目摘要

由于高通量技术在分子生物实验中的应用，产生了越来也多的实验结果数据。相应地，越来越多的生物医药方面的研究论文发表。这些海量的文献包含了丰富的生物医药实体关系，但是它们是以自由文本的方式无结构都存在，难以被生物医药研究领域的人员使用。因此，有必要从这些生物文本中抽取有意义的信息供相关人员使用。本项目主要研究并抽取生物文献中命名实体及它们之间的语义关系，并建立生物实体的语义关系知识库。我们从以下方面进行了研究：首先，研究了生物医药文献中实体名称和生物实体关系触发词的识别。我们采用一个混合的条件随机域(Conditional Random Fields, CRFs)模型结合词聚类特征，识别化合物和药物名称，我们用类似的方法进行了生物事件中触发词的识别。在公开数据评估中获得了非常好的结果；其次，研究了用联合模型抽取生物实体关系。提出了一个模型，通过标记句子中生物实体开始的依存链，来同时抽取生物实体关系触发词和实体关系。采用一个基于结构感知（Structured Perceptron）和多Beam搜索(multiple-beam search)解码的算法，联合抽取句子中的药物和疾病的实体名称，以及它们之间的关系；再次，我们基于特征三元组的标注理论，标注287篇Pubmed的文献摘要。标注原则就是将句子中的所有的语义单元之间的语义关联标注出来，该语料为生物医药领域的文本挖掘提供了新的语料；最后，生物实体关系知识库的建立。我们使用最近10年Pubmed数据库中基于人类基因的文献数据，构建了一个实体关系的知识库查询系统用于辅助生物医药领域的研究。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.13343/j.cnki.wsxb.20200479

发表时间：2021

DOI：10.11654/jaes.2022-0087

发表时间：2022

魏小梅的其他基金

相似国自然基金

基于实体网络的查询处理及其应用技术

批准号：61170007

批准年份：2011

负责人：何震瀛

学科分类：F0202

资助金额：59.00

项目类别：面上项目

基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别

批准号：61672184

批准年份：2016

负责人：刘滨

学科分类：F0213

资助金额：62.00

项目类别：面上项目

面向自然语言处理的逻辑语义表达与演算模型研究

批准号：60173025

批准年份：2001

负责人：王惠临

学科分类：F0211

资助金额：18.00

项目类别：面上项目

基于自然语言处理技术的蛋白质结构和功能预测

批准号：61003090

批准年份：2010

负责人：董启文

学科分类：F0213

资助金额：21.00

项目类别：青年科学基金项目

基于自然语言处理技术的生物实体语义网络研究和应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

外泌体在胃癌转移中作用机制的研究进展

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

猪链球菌生物被膜形成的耐药机制

施用生物刺激剂对空心菜种植增效减排效应研究

魏小梅的其他基金

相似国自然基金