如何获得蛋白质的结构是生物学研究的一个重要课题。目前通过实验方法确定蛋白质结构的过程仍然非常复杂,周期很长。因此,作为辅助方法的结构预测技术的研究非常活跃。尤其是最近刚刚发展起来的基于支持向量机(SVM)的蛋白质结构预测技术,已经显示了在预测准确率方面远高于以往方法的优势。本课题研究面向蛋白质二级结构和结构域预测的SVM,目标是从多个角度提升SVM技术在蛋白质结构预测中的效率性、准确性和可靠性。首先,研究蛋白质结构数据,提出能良好反映数据意义的编码方法;然后,分别研究面向多类模式识别问题的SVM和并行SVM,提出相应的算法;接下来,寻求把多类SVM和并行SVM相结合的办法,并应用于蛋白质结构预测,用大量实验来验证提出的方法的有效性;最后,开发简单易用,性能优良的预测软件。.本课题不仅能推动SVM的发展,同时也为蛋白质结构预测提出了新方法,在科学、工程、社会和经济效益上都具有及其重要的意义。
在该项目中,我们主要针对多类支持向量机,并行支持向量机,以及它们在蛋白质结构预测中的应用做了一定的研究,同时,研究中也取得了一些原先计划中没有提到的成果。首先,我们对目前存在的解决多类别模式识别问题的支持向量机进行了研究,常见的有一对多方法,一对一方法,全集中方法以及DAGSVM等等,但这些方法的训练过程都是相当耗费时间的。我们的研究中,提出了一种新的训练方法。该方法中,我们把多类问题中的每一类样本各自用OCSVM来训练一次,这样就获得了多组支持向量,然后把这些支持向量机组合起来成为新的训练样本集,最后用一对一的方法对新样本集进行训练得到最终的识别器。该方法虽然比传统方法多了一步OCSVM的训练,但是大大缩短了训练的时候,提高了效率。另外,在研究中,我们还发现了很有意义的支持向量机与支持向量回归机的关系,提出了基于对称点的算法。接下去,我们对并行支持向量算法作了研究。目前的并行支持向量算法很少,存在的算法主要是针对最复杂的矩阵计算部分进行并行处理。我们提出了一种通过选择多组工作集进行并行计算的方法,这种方法可以大大减少分解算法重复的次数,从而达到快速训练的目的。实验的结果显示,这种并行对大部分样本数据都可行并达到了预期的效果。另外,为了更好地把方法应用到蛋白质结构预测中去,我们对蛋白质结构的数据做了大量的研究。我们发现蛋白质数据的预处理和如何编码对后期的效果起到很重要的作用。在预处理中,我们从两种不同的角度出发,提出了两种方案。一种是用决策树的方法对样本数据的特征添加一定的权重,以达到更好的识别效果,另一种是对于样本中的一些缺失数据,用支持向量回归学习的方法来进行插补,来提高数据的有效性,以达到提高识别效果的目的。另外,我们也研究了目前的一些蛋白质编码方法,提出了两种编码方法。一种是把相邻氨基酸的倾向性编码进来的二肽频数的方法。该方法能更好体现蛋白质结构的类别,用先前提出的支持向量机进行分类,得到的实验结果显示提出方法的有效性。另一种是新型的滑窗方法。传统的滑窗方法,一般以单类结构为目标进行滑窗编码,我们提出了以相邻两个氨基酸作为一类的滑窗编码方法,该算法目前作为研究生的毕业设计正在实验当中。总体来说,该项目基本按照预期的进程开展的,由于中途有一些新的发现,后面的蛋白质结构域预测方面的研究尚未深入展开。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
基于支持向量机的稻田虫害预测方法研究
InSAR支持下基于支持向量机的地震滑坡空间预测研究
基于小波非线性支持向量机分类预测的蛋白质结构、功能和进化关系研究及医学应用
用于临界热流密度预测的支持向量机深度学习研究