大规模蛋白质相互作用网络中可重叠复合物的识别算法研究

基本信息
批准号:61602352
项目类别:青年科学基金项目
资助金额:20.00
负责人:胡伦
学科分类:
依托单位:武汉理工大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:胡复艳,曹广义,何英,何文静
关键词:
模糊聚类模型大规模蛋白质相互作用网络复合体检测分布式计算蛋白质复合体
结项摘要

Protein complexes are of great significance to understand the mechanisms of proteins in cells. Though promising, the experimental approaches of identifying protein complexes are not satisfactory in terms of efficiency and therefore impose limitations to the development of protesome research. In this proposal, we take the advantage of machine learning to develop an innovative approach of identifying protein complexes. Specifically speaking, we will conduct our research from three aspects. First of all, a weighted semantic similarity measure will be developed to evaluate the similarity of proteins in terms of Gene Ontology, and by doing so the valuable information in Gene Ontology will be fully exploited for the identification of protein complexes. Secondly, based on fuzzy clustering modelling, we propose an innovative approach to identify overlapping protein complexes in order to disclose the relationships between proteins and complexes. Thirdly, to satisfy the requirement of efficiently identifying complexes in large-scale protein-protein interaction networks, a parallel version of the proposed approach is also developed and implemented with a popular distributed computing framework. Our proposal targets to construct a distributed computing platform of identifying overlapping protein complexes accurately and efficiently, thus providing us an alternative way to fully understand the mechanisms of life-course processes.

蛋白质复合物在细胞生命活动中发挥着非常重要的功能,然而传统的化学实验检测方法存在着实验成本昂贵以及所识别的复合物覆盖率低等问题,严重地制约了蛋白质复合物相关应用研究的进一步发展。本项目利用机器学习方法发展识别蛋白质复合物的新理论和新算法。主要研究包括:(1)提出基于加权语义相似度的度量方法来全面评估蛋白质基因本体信息的相似性,充分地挖掘出基因本体信息中与蛋白质复合物形成所相关的有价值信息;(2)依据模糊聚类模型,发展能够识别可重叠复合物的计算方法,揭示蛋白质和复合物之间的复杂关系;(3)提出结合模糊聚类模型分解算法和主流分布式系统基础架构对复合物进行识别的混合策略,满足在大规模蛋白质相互作用网络环境下快速、准确地识别复合物的需求。通过本项目的研究,将为最终构建一个能够高效识别可重叠蛋白质复合物的分布式计算系统提供理论基础和技术支撑,从而为我们深入和全面的理解生命活动的复杂机理打下良好基础。

项目摘要

蛋白质复合物对于生物学家了解蛋白质在细胞生命活动中所发挥的作用有着非常重要的意义。为了解决传统的化学实验检测方法中存在的实验成本昂贵以及识别覆盖率低等问题,本项目利用机器学习方法,从蛋白质相互作用网络出发,在蛋白质复合物识别、蛋白质相互作用预测及蛋白酶分裂位点分析等方面进行了深入研究,以揭示生物细胞内的蛋白质间的联系和规律。主要研究包括:(1)利用构成复合物的蛋白质在基因本体信息表现上的差异性,提出了一种可重叠复合物识别算法,并结合交替方向乘子法将识别问题分解成若干个独立的子问题,以并行模式来完成这些子问题的优化任务,从而提高算法在大规模蛋白质相互作用网络中识别复合物的效率;(2)引入了语义相似度函数来评估两个蛋白质在基因本体信息上的相似度,并在此基础上将蛋白质复合物识别问题转化为一个模糊聚类的最优化问题,通过解决含有不等式约束最优化问题完成可重叠复合物识别的目标;(3)针对全基因组水平上蛋白质相互作用的大规模预测问题,基于并行计算框架MapReduce和分布式系统架构Hadoop开发了提供高质量蛋白质相互作用数据的分布式预测系统,为了解蛋白质间相互作用的规律提供了理论依据;(4)由于蛋白质中氨基酸一个残基的变化可能会引起另一个残基的变化,提出了基于共进化模式的预测模型将氨基酸中协同进化信息整合到预测模型中以提升HIV-1蛋白酶分裂位点预测的准确度。本项目的研究成果有助于我们深入和全面的理解生命活动的复杂机理,更加全面地解读隐藏在生命活动中的具有生物学意义的有价值信息。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

胡伦的其他基金

相似国自然基金

1

基于信息抽取技术的蛋白质相互作用网络构建及蛋白质复合物识别研究

批准号:61070098
批准年份:2010
负责人:杨志豪
学科分类:F0211
资助金额:32.00
项目类别:面上项目
2

大规模射频识别网络传输理论与算法研究

批准号:61901035
批准年份:2019
负责人:于季弘
学科分类:F0104
资助金额:26.00
项目类别:青年科学基金项目
3

动态蛋白质网络复合物识别方法研究及其应用

批准号:61672334
批准年份:2016
负责人:雷秀娟
学科分类:F0213
资助金额:63.00
项目类别:面上项目
4

基于图论方法的符号网络中重叠聚类算法的研究

批准号:11401346
批准年份:2014
负责人:亓兴勤
学科分类:A0409
资助金额:22.00
项目类别:青年科学基金项目