面向蛋白质亚细胞定位的特征提取与预测模型研究

基本信息

批准号：11326201

项目类别：数学天元基金项目

资助金额：3.00

负责人：张胜利

学科分类：

依托单位：西安电子科技大学

批准年份：2013

结题年份：2014

起止时间：2014-01-01 - 2014-12-31

项目状态：已结题

项目参与者：刘立芳,袁细国,白振国,聂雅琳,王峰,黄元元

关键词：

特征提取亚细胞定位信息融合机器学习

结项摘要

Protein subcellular localization prediction has currently become a hot issue in protein science and bioinformatics, it is important to study protein function, protein interaction and their regulation mechanism. However, from the perspective of information acquiring, most of the information got by existed methods is single. All of the information extraction from different levels should be combined to predict protein subcellular localization. Therefore, how to systematically fuse different information to predict protein subcellular localization is an urgent need to address the problem. This project aims at problems related to protein information extraction, selection and fusion, and focuses on how to extract protein sequence and structure information, to select key information, search for the effective prediction strategy. The main contents include: with comprehensive utilization of statistical analysis, we extract some features including the composition and position information of amino acid sequence and the features of predicted secondary structural sequence and build multiple information combination model. Then all the features extracted from different sequences based on random forest method are combined into a feature set, and a few features are selected as the input of classifier. Finally the accuracy of protein subcellular localization prediction can be improved by effective and efficient classification algorithm. This project-establishment will bring important theoretical and practical significance, in terms of high-accuracy prediction of protein subcellular localization, and then further contribute to the study of protein function and protein-protein interactions.

蛋白质亚细胞定位预测目前已经成为蛋白质科学和生物信息学研究中的一个热点问题，对蛋白质的功能、相互作用及调控机制的研究具有重要的意义。但是，从序列信息获取角度来看，现有方法所获取的信息较单一，各个层面的信息没有得到很好的融合。因此如何系统地融合不同的信息来预测蛋白质亚细胞定位是一个迫切需要解决的问题。本项目针对蛋白质亚细胞定位预测中信息的提取、挑选及融合等问题展开，重点研究如何充分提取蛋白质序列及结构信息，挑选核心信息，寻找预测策略的有效建模方法。主要内容包括：综合利用统计分析理论提取氨基酸出现频率信息、位置分布信息及二级结构的序列信息，并建立蛋白质多重信息组合模型，基于相对重要性的随机森林对多源信息进行有效地融合、挑选，通过设计合理的预测方案，提高蛋白质亚细胞定位预测的精确度。该项目立项，对蛋白质亚细胞定位的高精度预测，进而对蛋白质功能和相互作用的进一步研究，都有着重要的理论和实际意义。

项目摘要

蛋白质亚细胞定位预测目前已经成为蛋白质科学和生物信息学研究中的一个热点问题，对蛋白质的功能、相互作用及调控机制的研究具有重要的意义。针对蛋白质亚细胞定位预测中信息的提取、挑选及融合等问题，本项目重点研究了如何充分提取蛋白质序列及结构信息，挑选核心信息，寻找预测策略的有效建模方法。主要内容包括：综合利用统计分析理论提取氨基酸出现频率信息、位置分布信息，二级结构的序列信息(PSSS)以及考虑伪位置特异性打分矩阵(PsePSSM)中包含的进化信息等，并构建了蛋白质多重信息组合模型，基于主成分分析(PCA)等对多源信息进行有效地融合、挑选，最后通过设计合理的预测算法，提高了蛋白质结构类及亚细胞定位预测的精确度。具体研究成果为：1. 利用氨基酸的疏水特性和三联体组分等特征，研究了凋亡蛋白亚细胞定位的高精度预测问题。 2.对于任意给定的多重片段蛋白质序列，我们利用条件LZ复杂度(CLZ)和修正的Hausdorff距离(MHD)给出了一种新的基于距离的非比对序列分析方法，并对刺突蛋白和冠状病毒蛋白序列进行了相似性分析和进化分析。3. 利用基于PSIPRED预测的蛋白质二级结构信息(PSSS)与伪位置特异性打分矩阵(PsePSSM)中的进化信息，并结合Chou的伪氨基酸组分(PseAAC)，提出了一个新的预测模型PSSS-PsePSSM。4. 将三种不同的自相关描述子应用到位置特异性打分矩阵中，进一步证实PSSM中包含了有用的进化信息。5. 考虑了交换词频和正规化的LZ复杂度信息，从特征选择的角度改善了蛋白质结构类的预测精度，这些都为蛋白质亚细胞定位的高精度预测打下了坚实的基础。项目组圆满完成了研究计划，取得了一系列的具有独创性的结果。本项目的研究对蛋白质亚细胞定位的高精度预测，进而对蛋白质功能和相互作用的进一步研究，都有着重要的理论和实际意义。一年来，共完成论文6篇，其中5篇被SCI期刊录用，1篇已投SCI期刊处于小修状态，另外申请国家发明专利一项(已公示)。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：

DOI：

发表时间：2020

DOI：

发表时间：2016

DOI：10.11654/jaes.2022-0087

发表时间：2022

张胜利的其他基金

批准号：19875038

批准年份：1998

资助金额：7.50

项目类别：面上项目

批准号：10374075

批准年份：2003

资助金额：21.00

项目类别：面上项目

批准号：11574400

批准年份：2015

资助金额：62.00

项目类别：面上项目

批准号：39200063

批准年份：1992

资助金额：4.80

项目类别：青年科学基金项目

批准号：21403109

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：11374237

批准年份：2013

资助金额：76.00

项目类别：面上项目

批准号：91964103

批准年份：2019

资助金额：80.00

项目类别：重大研究计划

批准号：11074196

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：11601407

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

批准号：19105004

批准年份：1991

资助金额：1.50

项目类别：青年科学基金项目

批准号：11774280

批准年份：2017

资助金额：65.00

项目类别：面上项目

批准号：31571667

批准年份：2015

资助金额：63.00

项目类别：面上项目

批准号：61372078

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：11204379

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：U1204315

批准年份：2012

资助金额：30.00

项目类别：联合基金项目

批准号：60902016

批准年份：2009

资助金额：23.00

项目类别：青年科学基金项目

批准号：61771315

批准年份：2017

资助金额：62.00

项目类别：面上项目

相似国自然基金

细胞凋亡蛋白质亚细胞定位数据集的构建及定位信息的分析与预测

批准号：61361015

批准年份：2013

负责人：陈颖丽

学科分类：F0124

资助金额：43.00

项目类别：地区科学基金项目

基于多源信息融合的蛋白质亚细胞定位预测算法研究

批准号：61272312

批准年份：2012

负责人：姚玉华

学科分类：F0214

资助金额：80.00

项目类别：面上项目

分形与统计相关方法在蛋白质亚细胞定位及功能预测中的应用

批准号：11401503

批准年份：2014

负责人：韩国胜

学科分类：A0204

资助金额：23.00

项目类别：青年科学基金项目

基于深度迁移学习的微拟球藻蛋白质亚细胞定位预测方法研究

批准号：31900071

批准年份：2019

负责人：公衍海

学科分类：C0105

资助金额：24.00

项目类别：青年科学基金项目

面向蛋白质亚细胞定位的特征提取与预测模型研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

基于MCPF算法的列车组合定位应用研究

施用生物刺激剂对空心菜种植增效减排效应研究

张胜利的其他基金

纽结与物理学几个前沿问题

B-M动力学模型与碳纳米管构象及球蛋白质折叠

非高斯条件下的量子照明研究

比值性状的遗传特性及其长期选择效果的研究

过渡金属二硫属化物范德华异质结的组装、能带调控和光学性质研究

CETP输运胆固醇酯机理的分子动力学研究

面向高性能、低功耗晶体管的高态密度、长自由程新型二维电子材料的研究

弯曲碳纳米管载流子的自旋轨道耦合及其物理效应

面向非激酶特异性蛋白质磷酸化位点的特征设计与预测模型研究

凝聚态物质的拓扑规范场理论

关键TOPK复合体结构及其调控癌症的分子物理机制研究

粗山羊草全基因组拷贝数变异（CNV）挖掘及相关CNV对普通小麦主要品质性状的影响

面向实用物理层网络编码的基础理论与算法研究

局域高斯操作辅助下的连续变量量子纠缠蒸馏研究

普通小麦及其3个近缘种中抽穗期基因TaHd1直向同源区进化分析

信道编码与物理层网络编码的联合编解码研究

异步非正交多用户接入的基础理论与算法研究

相似国自然基金