基于结构和多数据源融合的全基因组蛋白质功能预测技术研究

基本信息
批准号:61309010
项目类别:青年科学基金项目
资助金额:27.00
负责人:邓磊
学科分类:
依托单位:中南大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:廖志芳,倪炜,张德宇,袁磊,黄瑞,岳立果
关键词:
多数据源集成学习复杂网络结构比对功能预测
结项摘要

Exploring the functions of thousands of proteins is one of the most challenging areas in post-genomic era, and is of great significance for understanding life activities, disease treatment and new drug development. With the rapid development of high-throughput sequencing technology, more and more genomes were sequenced. Using traditional experimental methods to identify protein functions has been far from being able to meet the current demand. This research, based on systematic analysis of protein 3D structures and other function clues, and combined with the methods and techniques in the field of Biology, Mathematics, Physics and Computer Science, is to explore new algorithms for large-scale genome-wide prediction of protein functions. The study includes: (1)Based on the study of high-performance protein structure alignment methods, establish new types of nonlinear function prediction models, and improve the prediction coverage through the extensive use of the homology models; (2)Build integrated multi-clues network, use complex networks to study the topology and frequent substructures of the networks, and analyse a variety of network properties, such as clustering coefficient and module partition, mine functionality communities, and finally propose new function prediction methods; (3)Study large-scale ensemble prediction methods of protein functions; (4) Develop comprehensive protein function prediction platforms and databases, so as to provide technical and data supports for applications such as drug development.

揭示生物体内成千上万种蛋白质的功能是后基因组时代科学研究极富挑战的领域之一,对于理解生命活动的内在机理、疾病治疗和新药开发都具有重要的意义。随着高通量测序技术的飞速发展,越来越多的基因组被测序,使用传统实验方法来识别蛋白质功能已远远不能满足当前的需要。本课题将在系统分析蛋白质三维结构信息和其他功能线索的基础上,结合生物学、数学、物理学和计算机等领域的方法和技术,探索在全基因组范围内大规模预测蛋白质功能的新技术和新算法。研究内容包括:(1)在研究高性能蛋白质结构比对算法的基础上,建立新型的非线性功能预测模型,并通过大量运用同源模型来提高预测的覆盖度;(2)构建多线索融合网络,运用复杂网络方法研究网络的拓扑结构,分析聚集性、模块化等网络性质,挖掘功能社区,提出新的功能预测方法;(3)研究大规模蛋白质功能集成预测方法;(4)开发蛋白质功能综合预测平台和数据库,为药物开发等应用提供技术和数据支持。

项目摘要

蛋白质是一切生命的物质基础,是细胞和机体的重要组成部分。蛋白质间的相互作用支撑和影响着生命体内各种功能的实现。研究蛋白质功能对于理解生命活动的内在机理、疾病治疗、新药开发和蛋白质设计都具有重要的意义。本项目采用机器学习和复杂网络的方法,研究了蛋白质功能预测的几个重要方面:蛋白质相互作用能量热点(Hot Spots)预测、蛋白质溶剂可及面积预测、蛋白质结构域功能预测、蛋白质功能预测。取得的成果主要包括以下几个方面:1)开发了基于结构邻居特征的能量热点集成预测方法。在108个基于序列、结构和能量的残基特征基础上,分别计算了108个欧式邻居特征和108个Voronoi邻居特征,并使用随机森林的方法选择出了前46个重要特征。由于能量热点预测中存在不平衡问题,我们还通过多次对负样本(非能量热点)进行采样来构建集成分类器,取得了非常好的预测性能。在此基础上,我们还开发了能量热点预测Web服务器——PredHS;2)在溶剂可及性方面,通过融合各种局部和全局序列特征,提出了一种基于梯度迭代决策树的预测方法,显著提高了预测质量;3)提出了一种新颖的蛋白质结构域功能标注方法(SDA),该方法利用贝叶斯网络融合了多个异构信息源,包括基于结构比对的蛋白质-SCOP结构域映射关系 、InterPro2GO映射信息、PSSM进化谱和序列邻居特征。实验结果表明该方法比已有方法在预测精度和覆盖度上都有显著的提高;4)由于相似的蛋白质结构意味着相似的蛋白质功能,我们提出了一种基于结构比对的蛋白质功能预测模型——PredGO。对于查询蛋白的结构或者同源模型,首先使用结构比对方法搜索出其第一级的结构邻居,然后对于查询蛋白的序列同源,在结构邻居数据库中查询出第二级结构邻居。我们设计了一个有效的打分函数来对两级结构邻居的功能标注进行评估,并将分数较高的功能标记到查询蛋白上。此外,PredGO还使用贝叶斯网络方法集成了蛋白质序列和相互作用等非结构信息。实验表明我们的方法比已有的非结构方法具有更好的预测准确率和覆盖度,能应用到对未知蛋白质序列和结构的功能识别中。.本项目相关工作取得了较好的研究成果,共发表或录用论文10篇,其中SCI论文7篇,EI论文3篇,申请国家发明专利7项。开发的相关预测算法和软件已被广泛应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

邓磊的其他基金

批准号:61675083
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:31900670
批准年份:2019
资助金额:23.00
项目类别:青年科学基金项目
批准号:81602670
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:11502212
批准年份:2015
资助金额:22.00
项目类别:青年科学基金项目
批准号:51205143
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:61672541
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:60803013
批准年份:2008
资助金额:18.00
项目类别:青年科学基金项目
批准号:51675200
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:51301066
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:61902256
批准年份:2019
资助金额:28.00
项目类别:青年科学基金项目
批准号:61307091
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:40801172
批准年份:2008
资助金额:19.00
项目类别:青年科学基金项目
批准号:31601759
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于多源信息融合的蛋白质功能预测方法研究

批准号:61903106
批准年份:2019
负责人:李满枝
学科分类:F0305
资助金额:25.00
项目类别:青年科学基金项目
2

基于多源信息融合的蛋白质结构域折叠模式预测模型研究

批准号:61602100
批准年份:2016
负责人:张丽超
学科分类:F0213
资助金额:20.00
项目类别:青年科学基金项目
3

基于结构和多源异构信息融合的大规模长非编码RNA功能预测

批准号:61672541
批准年份:2016
负责人:邓磊
学科分类:F0213
资助金额:62.00
项目类别:面上项目
4

基于多源信息融合的蛋白质相互作用预测研究

批准号:60775012
批准年份:2007
负责人:张绍武
学科分类:F0605
资助金额:28.00
项目类别:面上项目