面向蛋白质亚细胞定位的特征提取与预测模型研究

基本信息
批准号:11326201
项目类别:数学天元基金项目
资助金额:3.00
负责人:张胜利
学科分类:
依托单位:西安电子科技大学
批准年份:2013
结题年份:2014
起止时间:2014-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:刘立芳,袁细国,白振国,聂雅琳,王峰,黄元元
关键词:
特征提取亚细胞定位信息融合机器学习
结项摘要

Protein subcellular localization prediction has currently become a hot issue in protein science and bioinformatics, it is important to study protein function, protein interaction and their regulation mechanism. However, from the perspective of information acquiring, most of the information got by existed methods is single. All of the information extraction from different levels should be combined to predict protein subcellular localization. Therefore, how to systematically fuse different information to predict protein subcellular localization is an urgent need to address the problem. This project aims at problems related to protein information extraction, selection and fusion, and focuses on how to extract protein sequence and structure information, to select key information, search for the effective prediction strategy. The main contents include: with comprehensive utilization of statistical analysis, we extract some features including the composition and position information of amino acid sequence and the features of predicted secondary structural sequence and build multiple information combination model. Then all the features extracted from different sequences based on random forest method are combined into a feature set, and a few features are selected as the input of classifier. Finally the accuracy of protein subcellular localization prediction can be improved by effective and efficient classification algorithm. This project-establishment will bring important theoretical and practical significance, in terms of high-accuracy prediction of protein subcellular localization, and then further contribute to the study of protein function and protein-protein interactions.

蛋白质亚细胞定位预测目前已经成为蛋白质科学和生物信息学研究中的一个热点问题,对蛋白质的功能、相互作用及调控机制的研究具有重要的意义。但是,从序列信息获取角度来看,现有方法所获取的信息较单一,各个层面的信息没有得到很好的融合。因此如何系统地融合不同的信息来预测蛋白质亚细胞定位是一个迫切需要解决的问题。本项目针对蛋白质亚细胞定位预测中信息的提取、挑选及融合等问题展开,重点研究如何充分提取蛋白质序列及结构信息,挑选核心信息,寻找预测策略的有效建模方法。主要内容包括:综合利用统计分析理论提取氨基酸出现频率信息、位置分布信息及二级结构的序列信息,并建立蛋白质多重信息组合模型,基于相对重要性的随机森林对多源信息进行有效地融合、挑选,通过设计合理的预测方案,提高蛋白质亚细胞定位预测的精确度。该项目立项,对蛋白质亚细胞定位的高精度预测,进而对蛋白质功能和相互作用的进一步研究,都有着重要的理论和实际意义。

项目摘要

蛋白质亚细胞定位预测目前已经成为蛋白质科学和生物信息学研究中的一个热点问题,对蛋白质的功能、相互作用及调控机制的研究具有重要的意义。针对蛋白质亚细胞定位预测中信息的提取、挑选及融合等问题,本项目重点研究了如何充分提取蛋白质序列及结构信息,挑选核心信息,寻找预测策略的有效建模方法。主要内容包括:综合利用统计分析理论提取氨基酸出现频率信息、位置分布信息,二级结构的序列信息(PSSS)以及考虑伪位置特异性打分矩阵(PsePSSM)中包含的进化信息等,并构建了蛋白质多重信息组合模型,基于主成分分析(PCA)等对多源信息进行有效地融合、挑选,最后通过设计合理的预测算法,提高了蛋白质结构类及亚细胞定位预测的精确度。具体研究成果为:1. 利用氨基酸的疏水特性和三联体组分等特征,研究了凋亡蛋白亚细胞定位的高精度预测问题。 2.对于任意给定的多重片段蛋白质序列,我们利用条件LZ复杂度(CLZ)和修正的Hausdorff距离(MHD)给出了一种新的基于距离的非比对序列分析方法,并对刺突蛋白和冠状病毒蛋白序列进行了相似性分析和进化分析。3. 利用基于PSIPRED预测的蛋白质二级结构信息(PSSS)与伪位置特异性打分矩阵(PsePSSM)中的进化信息,并结合Chou的伪氨基酸组分(PseAAC),提出了一个新的预测模型PSSS-PsePSSM。4. 将三种不同的自相关描述子应用到位置特异性打分矩阵中,进一步证实PSSM中包含了有用的进化信息。5. 考虑了交换词频和正规化的LZ复杂度信息,从特征选择的角度改善了蛋白质结构类的预测精度,这些都为蛋白质亚细胞定位的高精度预测打下了坚实的基础。项目组圆满完成了研究计划,取得了一系列的具有独创性的结果。本项目的研究对蛋白质亚细胞定位的高精度预测,进而对蛋白质功能和相互作用的进一步研究,都有着重要的理论和实际意义。一年来,共完成论文6篇,其中5篇被SCI期刊录用,1篇已投SCI期刊处于小修状态,另外申请国家发明专利一项(已公示)。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

视网膜母细胞瘤的治疗研究进展

视网膜母细胞瘤的治疗研究进展

DOI:
发表时间:2018
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

张胜利的其他基金

批准号:19875038
批准年份:1998
资助金额:7.50
项目类别:面上项目
批准号:10374075
批准年份:2003
资助金额:21.00
项目类别:面上项目
批准号:11574400
批准年份:2015
资助金额:62.00
项目类别:面上项目
批准号:39200063
批准年份:1992
资助金额:4.80
项目类别:青年科学基金项目
批准号:21403109
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:11374237
批准年份:2013
资助金额:76.00
项目类别:面上项目
批准号:91964103
批准年份:2019
资助金额:80.00
项目类别:重大研究计划
批准号:11074196
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:11601407
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:19105004
批准年份:1991
资助金额:1.50
项目类别:青年科学基金项目
批准号:11774280
批准年份:2017
资助金额:65.00
项目类别:面上项目
批准号:31571667
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:61372078
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:11204379
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:U1204315
批准年份:2012
资助金额:30.00
项目类别:联合基金项目
批准号:60902016
批准年份:2009
资助金额:23.00
项目类别:青年科学基金项目
批准号:61771315
批准年份:2017
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

细胞凋亡蛋白质亚细胞定位数据集的构建及定位信息的分析与预测

批准号:61361015
批准年份:2013
负责人:陈颖丽
学科分类:F0124
资助金额:43.00
项目类别:地区科学基金项目
2

基于多源信息融合的蛋白质亚细胞定位预测算法研究

批准号:61272312
批准年份:2012
负责人:姚玉华
学科分类:F0214
资助金额:80.00
项目类别:面上项目
3

分形与统计相关方法在蛋白质亚细胞定位及功能预测中的应用

批准号:11401503
批准年份:2014
负责人:韩国胜
学科分类:A0204
资助金额:23.00
项目类别:青年科学基金项目
4

基于深度迁移学习的微拟球藻蛋白质亚细胞定位预测方法研究

批准号:31900071
批准年份:2019
负责人:公衍海
学科分类:C0105
资助金额:24.00
项目类别:青年科学基金项目