Protein complex prediction in protein networks is an important foundation for exploring various life activities and significant in enhancing understanding about living system. Current protein networks only contain topology information among proteins, which makes protein complex prediction cannot exploit the functional features of protein complex. To solve the core problem, this project extracts categorization information of protein-protein interaction in biomedical literature based on natural language processing methods and integrates the gene ontology resource. Based on the biological information, we construct protein biological attributed networks. Furthermore, we propose distance model of protein biological attributed networks based on attributed graph clustering theory to combine the two heterogeneous information of network topology information and biological attribute information. Ultimately, we build efficient model for protein complex prediction in protein biological attributed networks based on core-attachment theory. This project starts by mining biological literatures and integrating gene ontology resource, which provides vital biological attribute information for protein complex prediction and a theoretical framework for integrating diverse domain knowledge to predict protein complex. This project can combine the structural features and functional features of protein complex in protein complex prediction research, and provide new idea and theory for further study.
预测蛋白质网络中的蛋白质复合物是探索各种生命活动机理的重要基础,对于人们深入了解生命系统意义重大。当前公开的蛋白质网络数据仅能表示蛋白质间的拓扑结构信息,这使得复合物预测研究中无法利用复合物重要的功能特性。本项目针对这一核心问题,利用自然语言处理方法,抽取生物医学文献中蕴含的蛋白质相互作用类别信息,整合基因本体资源,构建蛋白质生物属性网络;基于属性图聚类理论,建立生物属性网络的距离模型,融合生物属性网络中的网络拓扑和生物属性两种异构信息;并结合Core-Attachment结构理论,建立高效的蛋白质复合物预测模型。本项目从挖掘并整合生物医学文献和基因本体领域知识入手,不仅为复合物预测研究提供了重要的生物属性信息,而且提出了一种整合多元领域知识进行复合物预测的理论框架,使蛋白质复合物预测研究能将复合物的结构特征和功能特性有机地结合,为建立高效的复合物预测方法提供了新的思路和理论依据。
基于计算的方法,准确识别蛋白质网络中的蛋白质复合物对于探索各种生命活动机理具有重要的研究意义。目前高通量蛋白质关系数据仅能表示蛋白质间的二维拓扑结构信息,且含有大量噪声数据,这是制约复合物识别性能的关键所在。本项目通过挖掘并整合生物医学文献和领域本体资源,构建蛋白质生物属性网络,不仅有效提高了蛋白质网络数据的准确性,而且能够融合重要的蛋白质功能特性信息。在此基础上,通过引入基因表达数据中的动态信息,建立动态蛋白质关系网路,并提出动态蛋白质复合物预测模型,大幅度提高了复合物识别性能,特别是为进一步分析蛋白质复合物的动态特性提供了新的思路和方法。. 为了建立高性能的蛋白质复合物识别方法,我们主要做了以下三方面工作:(1)建立高性能的生物医学关系抽取平台,提出了改进图核模型和集成图核模型方法,实现了高效、准确地从海量生物医学文献中抽取所需蛋白质相互作用关系信息。(2)高通量蛋白质关系数据和生物医学文献数据彼此互补,能够表示蛋白质间的拓扑结构信息,而基因本体数据能够表示蛋白质的功能特性。我们提出了基于蛋白质属性网络的数据融合方法,有效融合了网络拓扑和生物属性两种异构信息,并提出了基于属性网络的蛋白质复合物识别模型。(3)为了更好的揭示蛋白质复合物的动态特性,我们提出了基于基因表达数据的动态蛋白质关系网络构建方法,并进一步提出了动态蛋白质复合物识别模型。围绕项目的研究内容已发表论文9篇(包括SCI论文5篇),软件著作权1项,并已推荐SCI论文1篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响
基于关系对齐的汉语虚词抽象语义表示与分析
基于卷积神经网络的链接表示及预测方法
业务过程成批处理配置优化方法
大数据环境下基于生物医学本体的文献无监督分类方法研究
基于生物医学文献的隐含知识发现方法研究
基于领域本体方法构建中医概念信息模型的研究
面向汉语自由文本的领域本体学习的理论和方法研究