During the post-genomic era, a growing number of protein sequences are determined, how to identify their functional sites is one of the most important issues. The traditional biological experimental determination and validation on functional sites are usually laborious and time-consuming. To timely and effectively discover protein functional sites when facing with the avalanche of new protein sequences, computational methods are emerging. In this project, as protein molecules are multi-source, heterogeneous and complex, we will study from the following several aspects: firstly, different similarity measures for each features of protein molecules are presented. Secondly, to find different motifs of protein functional sites that provide an interpretable theoretical basis for protein functional sites labeling, sequence features, structure features, network features, co-evolution features, evolutionary trace features, physical/biological chemical property features are computed and analyzed. Furthermore, a novel method, deep sequential learning machine, is proposed for labeling protein molecule functional sites based on Deep Learning and Conditional Random Fields. Finally, an effective method for labeling sites of protein molecules is presented, and case studies and genome-wide analysis are carried out using the built prediction models to provide new insights into computation and biology.
在后基因组时代,越来越多的蛋白质分子序列被测定出来,如何确定蛋白质分子的功能位点是最重要的问题之一。传统生物实验的方法费时费力,在这种情况下,计算方法应运而生。本研究拟从蛋白质分子多源、异构、复杂的特征入手,首先研究这些特征的相似性度量问题;其次研究序列特征、结构特征、网络特征、共进化特征、进化踪迹特征、物理/生物化学属性特征等的提取计算分析方法,以寻找确定蛋白质分子位点在各种特征下的相似性模体,为蛋白质分子位点标记提供可解释的理论依据;再结合深度学习和条件随机场理论研究蛋白质分子的功能位点标记问题。最后整体形成有效的蛋白质分子位点标记的计算方法,并基于构建的模型进行个案研究和全基因组分析,为计算和生物学研究提供新的认知。
在后基因组时代,越来越多的生物分子序列被测定出来,如何确定生物分子的相互作用和功能位点是最重要的问题之一。采用传统生物实验的方法费时费力,在这种情况下,计算方法应运而生。本研究从生物分子多源、异构、复杂的特征入手,首先研究这些特征间的相似性度量问题;其次研究序列特征、结构特征、网络特征、共进化特征、进化踪迹特征、物理/生物化学属性特征等的提取计算分析方法,以寻找确定生物分子在各种特征下的相似性模体,为生物分子的相互作用及其位点标记提供可解释的理论依据;再结合深度学习和条件随机场理论研究生物分子的相互作用识别及其功能位点标记问题。在本项目中,我们提出一种称为IPMiner(Interaction Pattern Miner)的计算方法基于分子序列来预测ncRNA和蛋白质的相互作用,该方法利用了深度学习技术,并采用堆叠集成方法进一步提高预测性能。提出了基于条件随机场的LabCaS预测器,LabCaS预测器从整个序列出发来标记钙激活蛋白酶的潜在的剪切位点。我们首次把RNA绑定蛋白的预测当作多标记问题,提出一个称为iDeepM的新的深度学习方法。提出了一种称为iDeepE的计算方法从RNA序列出发来预测RNA与蛋白质的绑定位点,该方法合并了局部和全局的卷积神经网络。提出了一种称为iDeepV的方法来预测RNA与蛋白质的绑定位点。提出了一种基于深度学习的方法iDeepS,使用卷积神经网络(CNNs)和双向长短时记忆网络(BLSTM)自动地从RNA序列出发识别绑定的序列模体和结构模体。基于构建的模型进行个案研究和全基因组分析,为计算和生物学研究提供新的认知。
{{i.achievement_title}}
数据更新时间:2023-05-31
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
氯盐环境下钢筋混凝土梁的黏结试验研究
结核性胸膜炎分子及生化免疫学诊断研究进展
基于深度学习方法预测蛋白质翻译后修饰位点
基于深度特征提取和匹配的多源时空遥感影像序列变化检测研究
面向特征提取的深度鉴别稀疏表示学习方法研究
面向蛋白质功能预测的多标记学习方法研究与应用