Protein subcellular localization prediction has currently become a hot issue in protein science and bioinformatics, it is important to study protein function, protein interaction and their regulation mechanism. However, from the perspective of information acquiring, most of the information got by existed methods is single. All of the information extraction from different levels should be combined to predict protein subcellular localization. Therefore, how to systematically fuse different information to predict protein subcellular localization is an urgent need to address the problem. This project aims at problems related to protein information extraction, selection and fusion, and focuses on how to extract protein sequence and structure information, to select key information, search for the effective prediction strategy. The main contents include: with comprehensive utilization of statistical analysis, we extract some features including the composition and position information of amino acid sequence and the features of predicted secondary structural sequence and build multiple information combination model. Then all the features extracted from different sequences based on random forest method are combined into a feature set, and a few features are selected as the input of classifier. Finally the accuracy of protein subcellular localization prediction can be improved by effective and efficient classification algorithm. This project-establishment will bring important theoretical and practical significance, in terms of high-accuracy prediction of protein subcellular localization, and then further contribute to the study of protein function and protein-protein interactions.
蛋白质亚细胞定位预测目前已经成为蛋白质科学和生物信息学研究中的一个热点问题,对蛋白质的功能、相互作用及调控机制的研究具有重要的意义。但是,从序列信息获取角度来看,现有方法所获取的信息较单一,各个层面的信息没有得到很好的融合。因此如何系统地融合不同的信息来预测蛋白质亚细胞定位是一个迫切需要解决的问题。本项目针对蛋白质亚细胞定位预测中信息的提取、挑选及融合等问题展开,重点研究如何充分提取蛋白质序列及结构信息,挑选核心信息,寻找预测策略的有效建模方法。主要内容包括:综合利用统计分析理论提取氨基酸出现频率信息、位置分布信息及二级结构的序列信息,并建立蛋白质多重信息组合模型,基于相对重要性的随机森林对多源信息进行有效地融合、挑选,通过设计合理的预测方案,提高蛋白质亚细胞定位预测的精确度。该项目立项,对蛋白质亚细胞定位的高精度预测,进而对蛋白质功能和相互作用的进一步研究,都有着重要的理论和实际意义。
蛋白质亚细胞定位预测目前已经成为蛋白质科学和生物信息学研究中的一个热点问题,对蛋白质的功能、相互作用及调控机制的研究具有重要的意义。针对蛋白质亚细胞定位预测中信息的提取、挑选及融合等问题,本项目重点研究了如何充分提取蛋白质序列及结构信息,挑选核心信息,寻找预测策略的有效建模方法。主要内容包括:综合利用统计分析理论提取氨基酸出现频率信息、位置分布信息,二级结构的序列信息(PSSS)以及考虑伪位置特异性打分矩阵(PsePSSM)中包含的进化信息等,并构建了蛋白质多重信息组合模型,基于主成分分析(PCA)等对多源信息进行有效地融合、挑选,最后通过设计合理的预测算法,提高了蛋白质结构类及亚细胞定位预测的精确度。具体研究成果为:1. 利用氨基酸的疏水特性和三联体组分等特征,研究了凋亡蛋白亚细胞定位的高精度预测问题。 2.对于任意给定的多重片段蛋白质序列,我们利用条件LZ复杂度(CLZ)和修正的Hausdorff距离(MHD)给出了一种新的基于距离的非比对序列分析方法,并对刺突蛋白和冠状病毒蛋白序列进行了相似性分析和进化分析。3. 利用基于PSIPRED预测的蛋白质二级结构信息(PSSS)与伪位置特异性打分矩阵(PsePSSM)中的进化信息,并结合Chou的伪氨基酸组分(PseAAC),提出了一个新的预测模型PSSS-PsePSSM。4. 将三种不同的自相关描述子应用到位置特异性打分矩阵中,进一步证实PSSM中包含了有用的进化信息。5. 考虑了交换词频和正规化的LZ复杂度信息,从特征选择的角度改善了蛋白质结构类的预测精度,这些都为蛋白质亚细胞定位的高精度预测打下了坚实的基础。项目组圆满完成了研究计划,取得了一系列的具有独创性的结果。本项目的研究对蛋白质亚细胞定位的高精度预测,进而对蛋白质功能和相互作用的进一步研究,都有着重要的理论和实际意义。一年来,共完成论文6篇,其中5篇被SCI期刊录用,1篇已投SCI期刊处于小修状态,另外申请国家发明专利一项(已公示)。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
视网膜母细胞瘤的治疗研究进展
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
细胞凋亡蛋白质亚细胞定位数据集的构建及定位信息的分析与预测
基于多源信息融合的蛋白质亚细胞定位预测算法研究
分形与统计相关方法在蛋白质亚细胞定位及功能预测中的应用
基于深度迁移学习的微拟球藻蛋白质亚细胞定位预测方法研究