基于自然语言处理技术的生物实体语义网络研究和应用

基本信息
批准号:61202304
项目类别:青年科学基金项目
资助金额:25.00
负责人:魏小梅
学科分类:
依托单位:华中农业大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:黄钰,李芳芳,胡滨,章程,陈芳
关键词:
抽取本体语义生物实体机器学习
结项摘要

We focus on the extraction of semantic relations between biomedical entities such as proteins, gene and disease in this project. And on the basis of semantic relations a semantic network is created and visualized. Our research takes the following procedures: annotating resources based on entity relations; building extraction model of entity relations;extracting relations and building semantic relation network;exploring novel approaches in discovering entity relation;pursuing the evolving tendency of relation network changing with the corpus along the timeline and discovering new dimensions in biomedicine; applying entity relation network in the diagnosis of breast cancer. In accordance with the characteristics of the domain and the object of research, we integrate the techniques of natural language processing and multi-kernel learning in this project. We adopt the open-ended biomedical texts as the corpus of the research. First we process the texts by the techniques of natural language processing. After initial processing, we acquire the syntax parsing tree and dependency graph. Then we extract the features from the sentence parsing outcomes. We adopt Smith-Waterman algorithm to extract semantic relations out of entities. The semantic network is built on the semantic relations. Finally, we will apply the semantic network to adjuvant diagnosis of early breast cancer. Meanwhile, we will test and estimate our system on open data.

本项目研究并抽取生物文献中命名实体(蛋白质、基因和疾病)之间的语义关系,并建立面向疾病的语义关系网络,将网络以可视化的形式展示。我们需要做的工作有:标注相关的实体关系资源;研究和建立实体关系抽取模型;抽取关系并建立实体语义关系网络;研究发现新的实体关系的方法;研究关系网络随语料时段变化的演化趋势,发现生物研究热点;将实体关系网络应用于乳腺肿瘤的诊断和研究。根据研究领域和研究对象的特点,为了实现以上目标,我们采用基于自然语言处理的方法结合多核学习的机器学习技术研究本项目。具体是以开放的生物文献为研究对象,首先采用自然语言处理技术对文本进行处理,获得句法解析树和依存图,然后利用解析结果得到合适的句法和语义特征,采用基于Simth-Waterman算法的复合核函数抽取实体之间的语义关系,构建语义网络,我们将对抽取的语义网络应用到乳腺肿瘤的早期辅助诊断。我们还将对结果利用公开数据进行评估。

项目摘要

由于高通量技术在分子生物实验中的应用,产生了越来也多的实验结果数据。相应地,越来越多的生物医药方面的研究论文发表。这些海量的文献包含了丰富的生物医药实体关系,但是它们是以自由文本的方式无结构都存在,难以被生物医药研究领域的人员使用。因此,有必要从这些生物文本中抽取有意义的信息供相关人员使用。本项目主要研究并抽取生物文献中命名实体及它们之间的语义关系,并建立生物实体的语义关系知识库。我们从以下方面进行了研究:首先,研究了生物医药文献中实体名称和生物实体关系触发词的识别。我们采用一个混合的条件随机域(Conditional Random Fields, CRFs)模型结合词聚类特征,识别化合物和药物名称,我们用类似的方法进行了生物事件中触发词的识别。在公开数据评估中获得了非常好的结果;其次,研究了用联合模型抽取生物实体关系。提出了一个模型,通过标记句子中生物实体开始的依存链,来同时抽取生物实体关系触发词和实体关系。采用一个基于结构感知(Structured Perceptron)和多Beam搜索(multiple-beam search)解码的算法,联合抽取句子中的药物和疾病的实体名称,以及它们之间的关系;再次,我们基于特征三元组的标注理论,标注287篇Pubmed的文献摘要。标注原则就是将句子中的所有的语义单元之间的语义关联标注出来,该语料为生物医药领域的文本挖掘提供了新的语料;最后,生物实体关系知识库的建立。我们使用最近10年Pubmed数据库中基于人类基因的文献数据,构建了一个实体关系的知识库查询系统用于辅助生物医药领域的研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
4

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

DOI:10.5846/stxb201912262800
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

魏小梅的其他基金

相似国自然基金

1

基于实体网络的查询处理及其应用技术

批准号:61170007
批准年份:2011
负责人:何震瀛
学科分类:F0202
资助金额:59.00
项目类别:面上项目
2

基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别

批准号:61672184
批准年份:2016
负责人:刘滨
学科分类:F0213
资助金额:62.00
项目类别:面上项目
3

面向自然语言处理的逻辑语义表达与演算模型研究

批准号:60173025
批准年份:2001
负责人:王惠临
学科分类:F0211
资助金额:18.00
项目类别:面上项目
4

基于自然语言处理技术的蛋白质结构和功能预测

批准号:61003090
批准年份:2010
负责人:董启文
学科分类:F0213
资助金额:21.00
项目类别:青年科学基金项目