As the protein complex plays a significant role in the understanding of cellular organization and function, and the interpretation of the nature of life, the identification of protein complexes has drawn much attention in the recent. And much effort to developing computational approaches to protein complex identification in protein-protein interaction (PPI) networks has been made as those laboratory-based methods cannot be seen as efficient ones. Though many proposed approaches are effective to some extent, most of them are not able to tackle the noise existing in the PPI network, and identify non-overlapping protein complexes only utilizing topological information. In this project, we propose to address the challenge of noisy problem in the PPI network by taking into the consideration the similarity of Gene Ontology (GO) between pairwise proteins. A novel convergent model-based approach which considers the topological properties of the PPI network, the similarity of GO between pairwise proteins, and the GO terms of the proteins, is proposed to identify overlapping protein complexes in the PPI network. The implementation of the project not only can identify the overlapping protein complexes accurately, but also extract some latent features w.r.t. GO terms. These latent features can be used to improve the interpretability of the identified protein complexes and further provide the theoretical evidence to the understanding of the functions of the protein complexes, and the nature of life.
由于蛋白质复合物对细胞组成和功能的理解和生命现象本质的阐述有着举足轻重的意义,蛋白质复合物识别的研究近年来受到极大关注。由于化学实验测定方法识别蛋白质复合物在效率上存在明显的缺陷,越来越多的研究者尝试在蛋白质相互作用网络中利用计算方法识别蛋白质复合物。尽管学术界中有很多有效的识别算法被提出,但多数方法无法处理蛋白质相互作用网络中的噪声问题,仅能利用网络的拓扑结构识别满足预设条件的非重叠蛋白质复合物。针对以上问题与挑战,本项目拟通过评估蛋白质基因本体相似度以降低蛋白质相互作用网络中的噪声干扰,在充分考虑网络的拓扑信息,蛋白质基因本体信息的前提下,构建基于收敛聚类模型的蛋白质复合物识别算法。本项目的研究不仅为(重叠)蛋白质复合物的准确识别提供了新的方法,而且其抽取出的隐含的蛋白质本体信息能够提高蛋白质复合物的生物可解释性,对理解蛋白质复合物的生理功能,生命的本质,提供了重要的理论依据。
蛋白质复合物(Protein Complex)侦测的研究对于从细胞整体水平上理解生命活动的复杂机理,理解疾病发生的机制,以及相对应的药物开发等相关研究存在着重大的意义。本研究团队在过去三年的研究工作中,首先对蛋白质复合物侦测,复杂网络分析,图学习等相关理论进行充分调研。本研究团队而后提出了能够综合考量蛋白质分子在蛋白质网络中的结构特征以及蛋白质分子的基因本体特征的度量方法,量化蛋白质分子之间的相关性。基于此,本团队提出一系列聚类模型,利用蛋白质相互作用网络的结构信息与蛋白质分子的基因本体信息,自动侦测隐藏在网络中的类,进而提取蛋白质复合物。新的聚类模型的收敛性在理论及实验方面得到了有效验证。并且这些模型在不同真实蛋白质相互作用网络中的分析表现达到了同类方法的先进水平。该项目所支持的研究成果获得了本专业同行的广泛认可,在国际知名期刊、会议中发表了一系列有影响力的论文,并且在相关领域的国际知名会议中荣获最佳论文奖。在研究课题的支持下,本项目团队的研究工作极大地拓展了蛋白质复合物侦测,这一极具挑战性领域的前沿,为高效、准确、自动化地在蛋白质相互作用网络中侦测蛋白质复合物提供了便利的平台,并为其它相关基础研究提供了极具意义的决策支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于全模式全聚焦方法的裂纹超声成像定量检测
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
基于图卷积网络的归纳式微博谣言检测新方法
人工智能技术在矿工不安全行为识别中的融合应用
面向工件表面缺陷的无监督域适应方法
动态蛋白质网络复合物识别方法研究及其应用
基于图论模型的文本重叠聚类研究
基于划分的一般聚类模型研究
基于场模型的自适应空间聚类方法研究