The study on protein localization of detailed subcellular organs and its functions has become more urgent, with the growth of proteomic data. Based on the establishment of a sub-dataset of high-quality location data including multiplex protein submitochondrial localization, we will conduct an in-depth analysis of the sequence information and biological function of protein localized by different submitochondria. Extracting information on amino acid sequence, evolution information, characteristic motif, and simple super-secondary structure related to the functional domain, and two novel feature information parameters, namely, chemical shift and protein stickiness. These feature parameters would be rationally combined based on feature fusion theory, and the more rational prediction algorithm will be raised for protein submitochondria localization based on other machine learning methods, using an increment of diversity, extended position posibility matrix (PPM), and covariant discriminate. Continuous improvement of the prediction algorithm and selection of information parameters and enhancement of predictive and generalization ability can gain a better understanding of the correlation between protein submitochondria locations and functions, and help the unknown protein submitochondria localization. Furthermore, we will provide guidance on selection of feature parameters and algorithms for other subcellular localizations.
随着蛋白质组数据与日俱增,针对具体亚细胞器的蛋白质定位及其功能研究更为迫切。在构建高质量的包括多定位的蛋白质亚线粒体定位数据子库的基础上,深入分析不同亚线粒体定位蛋白质的序列信息及生物功能。提取不同亚线粒体定位蛋白质的氨基酸序列信息、进化信息、特征模体信息和与功能域相关的简单超二级结构等信息,并首次引入新的特征信息参数:化学位移(chemical shift)特征参数和蛋白质黏性(protein stickiness)参数。利用特征融合理论将这些特征参数合理组合,采用离散增量、推广的位置关联的矩阵和协变判别式等预测方法结合其他机器学习方法的基础上,提出更加合理的蛋白质亚线粒体定位理论预测算法。不断改进预测算法和信息参数的选取方法,提高预测能力和推广能力,可以更好地理解蛋白质亚线粒体定位及其功能,为未知的蛋白质亚线粒体定位提供帮助,同时也为其他亚细胞定位在特征参数提取和算法上提供一定的指导。
蛋白质的亚细胞定位是蛋白质组学研究的重要内容,线粒体作为细胞的产能中心、代谢中心和凋亡中心,在生命过程中发挥着重要的生理功能,并且与多种疾病的发生发展密切相关,不同亚线粒体位置的蛋白质参与不同的重要的生物过程,如细胞凋亡、离子动态平衡等。了解蛋白质亚线粒体定位能够进一步理解蛋白质功能,同时为那些由线粒体缺陷造成的疾病进行辅助药物设计提供帮助。利用计算机来发展一些可信度高、自动化预测蛋白质的亚线粒体定位方法是至关重要的。. 本项目组严格按照申请书的年度任务计划开展研究工作,根据研究内容,在2015年建立了新的数据集,包含4个定位位置的1293条蛋白质序列,首次提出Blast-GO算法,进行了亚线粒体定位预测,总体成功率达到93.27%,并分析线粒体膜间隙的蛋白质生物学功能。对化学位移算法进行优化,总结出化学位移信息参数,计算出四种核子的化学位移以及相关算法,建立服务网站,对外提供蛋白质化学位移信息参数计算服务,根据蛋白质黏性理论,建立了蛋白质黏性信息参数提取方法。在2018年对数据集进行更新,提出新的蛋白质亚线粒体定位预测算法。经过项目研究,研究成果对未知的蛋白质亚线粒体定位提供了算法,同时也为其他亚细胞定位在特征信息参数挖掘和算法上提供一定的指导。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于多源信息融合的蛋白质亚细胞定位预测算法研究
蛋白质亚核定位及其特征信息的理论研究
固有无序蛋白质(IDPs)特征信息挖掘及其预测方法发展
面向蛋白质亚细胞定位的特征提取与预测模型研究