Accurate annotation of protein functions plays a significant role in understanding life at the molecular level. Next-generation high-throughput DNA sequencing techniques generate a large number of genome data. The gap between available sequence data and their functional annotations has been increasingly widening. Therefore protein function prediction is still hot area of research in post-genomic era. However designing effective methods to combine multiple biological information is still a big challenge for protein function prediction due to systematicness,complexity and diversity of cell functions. In this project, we look to go beyond traditional machine learning-based methods and employ multiple-network technique to combine various biological data sources. We firstly deeply analyze the features of multiple biological data sources and the relationship between these data. Novel algorithms will be proposed to construct multiple biological networks. The feature of these biological networks and the relationships with protein functions will be studied. With respect to the hierarchy and difference of those biological networks, we will adapt the algorithms of multi-network alignment and of multi-diffusion to predict protein functions. With respect the dynamics of those biological networks, we will identify dynamic protein modules from dynamic protein networks to infer protein functions. Finally, a machine learning methods of multi-layer learning framework will be employed to integrate multiple biological networks so as to improve the prediction accuracy of protein function. It is hopeful that a serial of hard problems in the multiple network-based protein function prediction will be attacked in context of complicated cellular mechanism, which helps us better understand the mechanism of cell life at system level. A unified information access platform will be constructed on the base of biological data, research results and executable programs of this project. It will provide valuable information for biological and medical researchers.
随着基因组序列数据和其功能注释数据之间差距的日益增大,高效的蛋白质功能预测方法成为后基因组时代的研究热点。考虑到细胞功能的系统性、复杂性及多样性,设计合适的模型和方法来融合多元的生物信息是蛋白质功能预测研究面临巨大的挑战。本项目构建多个生物网络来描述多种生物信息之间以及他们与功能之间的关联关系。基于多生物网络,研究蛋白质功能预测的新方法。首先分析各个网络的特征、网络之间以及网络与功能之间的关系。考虑到生物网络的层次性和异构性采用多网络比对和多重扩散的方法来预测蛋白质功能。考虑到生物网络的动态性,在构建好的动态网络上,识别即时机制的蛋白质复合物和挖掘动态蛋白质子网来预测蛋白质功能。最后用机器学习的多层次学习框架集成多生物网络来预测的蛋白质功能。研究中涉及的数据、研究成果以及算法实现将会整合到一个统一的信息平台上来,实现多网络的构建、分析以及蛋白质功能预测,方便生物学研究和医学研究人员使用。
随着人类基因组计划的完成,对测序后的基因组进行功能注释,以及找到与疾病相关的基因、非编码RNA、蛋白质等成为人们研究的热点。研究人员试图从分子水平注释基因或蛋白质的功能,找到引起疾病的原因,从而为药物设计、疾病治疗提供指导工作。考虑到细胞功能的系统性、复杂性、多样性以及现有生物特征数据的多样性以及异构性,本项目的研究重点是设计合适的模型和方法来融合多元的生物信息从而预测蛋白质与生长发育相关的关键功能,预测与疾病相关的具有药物靶标功能的蛋白质,以及预测与疾病相关非编码的RNA的功能。本项目通过构建多个生物网络来描述多种生物信息之间以及他们与功能、疾病之间的关联关系。整理了多种构建蛋白质网络的方法,并对其可靠性进行评估。面对多元的生物特性,研究了多种生物特性的筛选方法以及多种生物特征融合的方法。整理了随机游走模型在单个和多个生物网络上应用的方式。设计了一系列将随机游走模型应用在多个生物网络上的算法。并将这些算法应用于疾病相关基因、非编码基因以及药物靶标蛋白质功能方面的预测。最后为了便于生物学研究和医学研究人员使用,开发了多生物数据分析平台。.在本基金的资助下,本项目组共发表了学术论文14 篇,其中SCI收录10 篇,EI 收录4 篇,出版学术专著1 部,获得软件著作权2 项。本项目组发表的对蛋白质相互作用网络进行预测和可靠行评估的综述,自2016年在线发表以来,google 学术引用18次。本项目组发表的对随机游走模型在单个和多个生物网络上应用方式的综述论文,自2016年在线发表以来,google 学术引用4次。我们项目在生物网络构建以及基于单个或多个生物网络随机游走模型方面的研究,为科研人员融合多元的生物信息来解决生物问题起到很好的参考和借鉴作用。例如研究人员借鉴我们蛋白质网络构建中的研究成果来识别引起猪瘟的胸膜肺炎放线杆菌的药物靶标。采用基于多生物网络的随机游走模型来预测与水稻产量相关的基因。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
基于图挖掘的蛋白质功能预测算法的研究
大规模蛋白质功能预测的高效算法研究
基于多源信息融合的蛋白质功能预测方法研究
基于多源信息融合的蛋白质亚细胞定位预测算法研究