Accurate prediction of protein subcellular localization plays an important role in understanding protein functions. There have been a lot of machine learning based predictors in this field, but most of them are based on single-scale protein data, which limits the prediction accuracy and application seriously. For example, the predictors based on amino acid sequence can not detect protein translocation due to the insensitiveness to protein movement, and the prediction accuracy of the predictors based on bioimages is highly affected by protein expression level and photographic environment of images...In this project, we intend to build an user-friendly and high-performance protein subcellular localization predictor based on multiscale protein data, and investigate the application of the predictor in screening and analyzing disease-related proteins. The predictor would consolidate four types of protein data of different scales, i.e., 1-dimensional (1D) amino acid sequence, 2D microscopic image, 3D protein structure, and high-dimensional protein-protein network, and then use a fusion algorithm that can deal with deficiency of input data and balance different scales of protein data to achieve high classification performance. The key research contents in this project include (1) construction of feature space from protein 3D structure, (2) design of the fusion algorithm of multiscale models, and (3) application of the predictor in detecting and analyzing protein translocations in pathological cells.
利用机器学习算法预测蛋白质的亚细胞位置,对于理解蛋白质的功能有着重要意义。目前领域内绝大多数的预测模型都是基于单一尺度的蛋白质数据,特征描述的角度较为狭窄,致使现有模型在预测精度上陷于瓶颈,在应用范围方面也存在着局限性。本项目拟以蛋白质的亚细胞位置模式为研究对象,从其一维氨基酸序列、二维显微图像、三维空间结构、及多维相互作用网络四个尺度综合开展研究,设计多尺度空间模型的集成算法充分发挥多源数据在蛋白质亚细胞位置预测方面的优势,建立一套输入要求灵活、预测精度优良的蛋白质亚细胞定位预测系统,并探索该预测系统在疾病相关蛋白质筛选和机制分析方面的应用。其中,重点研究内容包括蛋白质分子三维结构的特征空间构建、基于多尺度空间建模的集成算法设计、以及预测模型对于病变细胞环境下蛋白质位置和功能变化分析方面的应用。
蛋白质的亚细胞定位是指确定蛋白质在细胞内的具体存在部位,如细胞核、线粒体等细胞亚结构,为蛋白功能理解和相关疾病研究提供依据。蛋白质亚细胞位置的自动化预测一直以来都是生物信息领域研究的热点。目前,该类预测模型大多是从蛋白质的单一数据源进行信息挖掘,预测精度和应用范围都存在着局限性,而多源数据的综合分析和应用尚较为初步。.本项目围绕蛋白质亚细胞定位这一问题,提出了针对细胞显微图像的基于深度学习框架及主题模型的亚细胞位置定性与定量识别新方法,有效提升了定位信息在疾病标志蛋白筛选及蛋白质网络成员预测应用中的性能,并提出了基于复杂蛋白质三维结构理解的亚细胞定位新思路,设计了针对结构拓扑及物理化学特性的特征工程及深度学习编码器,为蛋白结构与亚细胞位置的相关性研究提供了依据。在此基础上,进一步构建了基于氨基酸序列、结构、图像、及相互作用网络的高性能的蛋白亚细胞位置分析方法,研发了一组融合多尺度多视角信息的定位预测方法,为蛋白数据整合及分析提供了参照和依据。在项目所构建的先进理论模型基础上,建立和发布了在线生物信息计算平台,构架了理论模型和生物实验的桥梁。通过本项目的研究,项目组发表了SCI期刊论文8篇,EI论文1篇,公开发明专利1项。其中包括Briefings in Bioinformatics 1篇,Bioinformatics 2篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
基于多模态信息特征融合的犯罪预测算法研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
视网膜母细胞瘤的治疗研究进展
基于多源信息融合的蛋白质亚细胞定位预测算法研究
细胞凋亡蛋白质亚细胞定位数据集的构建及定位信息的分析与预测
基于深度迁移学习的微拟球藻蛋白质亚细胞定位预测方法研究
基于多标记学习的蛋白质亚细胞多位置预测方法研究