We focus on the extraction of semantic relations between biomedical entities such as proteins, gene and disease in this project. And on the basis of semantic relations a semantic network is created and visualized. Our research takes the following procedures: annotating resources based on entity relations; building extraction model of entity relations;extracting relations and building semantic relation network;exploring novel approaches in discovering entity relation;pursuing the evolving tendency of relation network changing with the corpus along the timeline and discovering new dimensions in biomedicine; applying entity relation network in the diagnosis of breast cancer. In accordance with the characteristics of the domain and the object of research, we integrate the techniques of natural language processing and multi-kernel learning in this project. We adopt the open-ended biomedical texts as the corpus of the research. First we process the texts by the techniques of natural language processing. After initial processing, we acquire the syntax parsing tree and dependency graph. Then we extract the features from the sentence parsing outcomes. We adopt Smith-Waterman algorithm to extract semantic relations out of entities. The semantic network is built on the semantic relations. Finally, we will apply the semantic network to adjuvant diagnosis of early breast cancer. Meanwhile, we will test and estimate our system on open data.
本项目研究并抽取生物文献中命名实体(蛋白质、基因和疾病)之间的语义关系,并建立面向疾病的语义关系网络,将网络以可视化的形式展示。我们需要做的工作有:标注相关的实体关系资源;研究和建立实体关系抽取模型;抽取关系并建立实体语义关系网络;研究发现新的实体关系的方法;研究关系网络随语料时段变化的演化趋势,发现生物研究热点;将实体关系网络应用于乳腺肿瘤的诊断和研究。根据研究领域和研究对象的特点,为了实现以上目标,我们采用基于自然语言处理的方法结合多核学习的机器学习技术研究本项目。具体是以开放的生物文献为研究对象,首先采用自然语言处理技术对文本进行处理,获得句法解析树和依存图,然后利用解析结果得到合适的句法和语义特征,采用基于Simth-Waterman算法的复合核函数抽取实体之间的语义关系,构建语义网络,我们将对抽取的语义网络应用到乳腺肿瘤的早期辅助诊断。我们还将对结果利用公开数据进行评估。
由于高通量技术在分子生物实验中的应用,产生了越来也多的实验结果数据。相应地,越来越多的生物医药方面的研究论文发表。这些海量的文献包含了丰富的生物医药实体关系,但是它们是以自由文本的方式无结构都存在,难以被生物医药研究领域的人员使用。因此,有必要从这些生物文本中抽取有意义的信息供相关人员使用。本项目主要研究并抽取生物文献中命名实体及它们之间的语义关系,并建立生物实体的语义关系知识库。我们从以下方面进行了研究:首先,研究了生物医药文献中实体名称和生物实体关系触发词的识别。我们采用一个混合的条件随机域(Conditional Random Fields, CRFs)模型结合词聚类特征,识别化合物和药物名称,我们用类似的方法进行了生物事件中触发词的识别。在公开数据评估中获得了非常好的结果;其次,研究了用联合模型抽取生物实体关系。提出了一个模型,通过标记句子中生物实体开始的依存链,来同时抽取生物实体关系触发词和实体关系。采用一个基于结构感知(Structured Perceptron)和多Beam搜索(multiple-beam search)解码的算法,联合抽取句子中的药物和疾病的实体名称,以及它们之间的关系;再次,我们基于特征三元组的标注理论,标注287篇Pubmed的文献摘要。标注原则就是将句子中的所有的语义单元之间的语义关联标注出来,该语料为生物医药领域的文本挖掘提供了新的语料;最后,生物实体关系知识库的建立。我们使用最近10年Pubmed数据库中基于人类基因的文献数据,构建了一个实体关系的知识库查询系统用于辅助生物医药领域的研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
基于SSVEP 直接脑控机器人方向和速度研究
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于实体网络的查询处理及其应用技术
基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别
面向自然语言处理的逻辑语义表达与演算模型研究
基于自然语言处理技术的蛋白质结构和功能预测