As one of the most crucial post-translational modifications in eukaryotes, reversible protein phosphorylation regulates almost all the processes of life activities. So prediction of phosphorylation sites has currently become a hot issue in bioinformatics and accurate non-kinase-specific prediction tools are highly desirable for whole genome annotation in a wider variety of species. This project aims at problems related to protein feature extraction, selection and fusion in non-kinase-specific prediction of phosphorylation sites, and focuses on how to extract key information in protein sequence and search for the effective prediction strategy. The main contents include: with comprehensive utilization of statistical analysis, we extract some features from various aspects including the physical and chemical properties of amino acids, overlapping properties, predicted protein secondary structure, predicted protein disorder, Shannon entropy, position specific scoring matrix and averaged cumulative hydrophobicity, and construct multiple information combination model. Then all the features extracted from different sequences based on maximum conditional relevance minimum redundancy criterion are combined into a feature set, and a few features are selected as the input of classifier. Finally the accuracy of prediction of protein phosphorylation sites can be improved by effective and efficient classification algorithm. The project-establishment is not only helpful to understand the important significance of post-translational modifications in the life process, but also can be widely used in drug development and disease treatment.
可逆的蛋白质磷酸化作为真核生物中重要的翻译后修饰活动之一,几乎调节着生命活动的所有过程。因此,磷酸化位点预测已经成为生物信息学研究中的一个热点问题。对于更广泛物种中的全基因组注释,发展精确的非激酶特异性预测工具的需求日益增加。本项目针对非激酶特异性磷酸化位点预测中特征的提取、挑选及融合等问题展开,重点研究如何充分提取蛋白质序列中的核心特征,寻找预测策略的有效建模方法。主要内容包括:综合利用统计分析理论从氨基酸物理化学性质、氨基酸交叉分类、蛋白质二级结构、无序信息、信息熵得分,PSSM得分和平均累积疏水性等方面提取特征,并建立蛋白质多重信息组合模型,基于最大条件相关最小冗余准则对多源信息进行有效地融合、挑选,通过设计合理的预测方案,提高蛋白质磷酸化位点预测的精确度。该项目立项,不仅有助于理解翻译后修饰在生命过程中的重要意义,还可在药物开发及其疾病治疗等方面得到广泛的实际应用。
可逆的蛋白质磷酸化作为真核生物中重要的翻译后修饰活动之一,几乎调节着生命活动的所有过程。因此,磷酸化位点预测已经成为生物信息学研究中的一个热点问题。对于更广泛物种中的全基因组注释,发展精确的非激酶特异性预测工具的需求日益增加。本项目针对非激酶特异性磷酸化位点预测中特征的提取、挑选及融合等问题展开,重点研究了如何充分提取蛋白质序列中的核心特征,寻找预测策略的有效建模方法。主要内容包括:综合利用统计分析理论从氨基酸物理化学性质、氨基酸交叉分类、蛋白质二级结构、无序信息、信息熵得分,PSSM得分和平均累积疏水性等方面提取特征,并建立蛋白质多重信息组合模型,基于最大条件相关最小冗余准则对多源信息进行有效地融合、挑选,通过设计合理的预测方案,提高蛋白质磷酸化等翻译后修饰位点预测的精确度。具体研究成果为:1.采用k近邻算法和BLOSUM80矩阵法对磷酸化位点进行预测,该方法具有简单、实用、时间复杂度低的优点。2.构建了多个特征设计方法识别蛋白质亚细胞定位,较大的提高了识别精确度。3.开发了两种去趋势移动平均自互相关系数的空间自动特征提取方法,证明了方法的有效性与鲁棒性。4.提出了预测器iRSpot-DTS,并对酵母III号染色体的全基因组进行了分析。5.建立了基于动态变异和随机转录的人类生命量化模型,对个人生物分子间相互作用和基因通路信息进行定量研究,找到了代谢综合症的关键基因通路。6.发展了多元统计模型DPC-DMACA-PSSM和ACCP-KL-NMF,该模型对革兰氏阴性菌分泌蛋白类型的鉴定是有效和可靠的。项目组圆满完成了研究计划,取得了一系列的具有独创性的结果。本项目的研究不仅有助于理解翻译后修饰在生命过程中的重要意义,还可在药物开发及其疾病治疗等方面得到广泛的实际应用。三年来,本项目共发表19篇高质量的论文,其中17篇发表在SCI检索期刊上,并有11篇发表在中科院JCR三区以上的SCI检索期刊上。其中一篇论文连续入选2018和2019年ESI高被引论文,引用次数为35次。.
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
激酶特异性的蛋白质磷酸化预测方法研究
融合多种信息识别激酶特异的蛋白质磷酸化位点
蛋白质翻译后修饰位点物种特异性预测的特征抽取和学习算法研究
面向蛋白质亚细胞定位的特征提取与预测模型研究