The prediction of protein secondary structure is one of the major issues in bioinformatics.It is generally accepted that the protein structure is determined by its amino acid sequence. In the prediction of protein secondary prediction, feature extraction of amino acid sequence is a key step. Chunting Zhang, the CAS and CAE academician, pointed out that "it is not sufficient to represent the protein structure only using amino acid composition, because the information of amino acid sequence is lost". Peptide chain composes of 20 amino acids, and amino acid sequence with the length n is the set of all possible n-peptides of 20↑n, which grows with exponential rate. Because the classification models are only possible for the condition of n<4, in the prediction of protein secondary structure, researchers build feature vector of amino acid sequence based on the peptide consisting of 2 or 3 amino acids. When the peptide consists of 4 amino acids, the feature vector of amino acid sequence has 160000 dimensions. The "curse of dimension" makes it impossible to perform the calculation. In this research we propose feature extraction methods based on advanced signal processing technologies, to extract key features of high dimensional feature vectors of amino acid sequence and remove the redundant information. Then the extracted features are optimized, and optimized features are used to predict the protein secondary structure. The aim is to investigate the relationship between protein secondary structure and amino acid sequence which has the peptide with 4-8 amino acids respectively, in order to improve the prediction performance.
蛋白质二级结构预测是公认的生物信息学领域的国际性难题。张春霆院士认为"仅仅应用氨基酸组成(对应第一代算法)来表示蛋白质的一级结构是不充分的,因为氨基酸的排列信息被丢失"。因为蛋白质长链都是由20种基本的氨基酸链接而成,蛋白质序列的种类随肽链长度n的增加呈指数倍增长。在蛋白质二级结构预测研究中, 由于目前分类模型中仅能局限于考虑 n<4 的情形,当肽链长度n为4时, 氨基酸序列向量的维度增至160000, 高维数据导致的'维灾'无法进行运算。在本研究中,我们提出了基于信号处理的特征提取方法,提取高维蛋白质序列向量的关键特征,去除冗余信息,同时对提取的特征加以优化。使用优化的特征来预测蛋白质二级结构。目标是探索肽链长度n为4、5、6﹑7﹑8时,氨基酸序列与蛋白质二级结构之间的关系,找出关键的特征,从而提高蛋白质二级结构的预测精度。
蛋白质二级结构预测是公认的生物信息学领域的国际性难题。理论上精确度是88%-90%。我们从大样本数据的筛选、蛋白质向量的表达和蛋白质序列结构的特性、蛋白质向量的特征提取、多重进化矩阵、基于深度学习的预测模型、基于大数据样本多个精准预测模型、预测模型参数的优化、预测模型的矫正等方面进行了研究。.我们提出了基于大数据样本和小波特征提取的多个精准预测模型。根据蛋白质的长程作用在蛋白质结构的形成中的作用,提出了基于蛋白质长度的多分类器模型,同时我们使用了小波特征提取和半随机子空间特征选取建立预测模型。我们的预测网站可以预测任何蛋白质序列并给出结果。预测软件的测试结果显示,在25PDB, CB513, CASP9, CASP10, CASP11, 和CASP12数据集的测试结果达到88.42%, 89.64%, 85.93%, 85.51%, 84.23%, 82.59%,跟其他国家的网站的预测结果比较,位于前列。目前国内没有提供服务的预测网站,我们提供了蛋白质二级结构预测的服务。.预测网址: http://qilubio.qlu.edu.cn:82/protein_Gwavelet
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于ICM脉冲时间编码的蛋白质序列特征提取及二级结构预测研究
基于高维地理数据特征提取的空间数据分析算法研究
高维流式大数据的增量特征提取算法研究
基于结构组稀疏算法的多尺度高维数据变量筛选及预测模型研究