肿瘤蛋白质结构、功能的研究对肿瘤的发病机理、肿瘤的诊断和治疗具有重要意义。从信息处理的角度,研究的瓶颈在于缺乏有效的手段获取、融合、挑选包括蛋白质同源信息、重叠结构与位置分布的多重信息,简化结构之间的比较及设计高效的预测方案。针对这些问题,本项目从肿瘤蛋白质入手,重点研究(1)采用多元统计方法,设计蛋白质信息获取算法,系统地提取蛋白质的多重信息;(2)利用接触图及马尔可夫场理论,简化蛋白质结构比较算法,降低结构比较的复杂度;(3)基于多源信息,采用贝叶斯网络设计蛋白质二级结构预测方案;(4)采用混合模型融合多重信息,利用随机森林挑选特征信息,结合模糊神经网络设计蛋白质结构类预测算法。项目将利用测试数据、独立样本数据,从统计和信息学两方面对算法进行验证和修正。本研究解决的信息处理问题,不但为肿瘤发病机理研究提供了帮助,有助于肿瘤的发现和治疗,而且还可以推广到其它疾病蛋白质的研究。
肿瘤蛋白质结构、功能的研究对肿瘤的发病机理、肿瘤的诊断和治疗具有重要意义。从信息处理的角度,研究的瓶颈在于缺乏有效的手段获取、融合、挑选包括蛋白质同源信息、重叠结构与位置分布的多重信息,简化结构之间的比较及设计高效的预测方案。针对这些问题,本项目从四方面展开:一是蛋白质信息获取方法,基于氨基酸“突变矩阵”,提出一种基于“蛋白质空间”的信息提取方法,实现蛋白质同源信息的获取;考虑到位置特异性矩阵两行多间隔之间的关联信息,提出了一种基于位置特异性矩阵的信息提取算法;设计了最大信息保留算法,提出了一种基于约化位置特异性矩阵的信息提取算法,简化了蛋白质进化信息的提取;提出了一种基于马尔可夫模型的序列重叠信息的分析方法,提高了序列局部信息提取的能力;根据氨基酸分布的随机性,提出了一种内容-位置信息的提取算法;基于搜索GOA数据库,利用BLAST搜索和重组技术,提出了一种基因本体论信息的提取算法,实现蛋白质功能注释信息的提取。二是蛋白质结构比较与分析,基于蛋白质结构接触图,采用马尔可夫场理论工具,提出了一种基于接触图与马尔科夫场的结构比较算法,简化了蛋白质高级结构比较的复杂度;开展不同残基的突变与NFV结合的亲和性研究。三是蛋白质二级结构预测分析,现有的蛋白质二级结构分析方法侧重点在于二级结构序列元素组分等信息,忽略其位置信息。采用统计计算方法,推断一个组分片段的位置分布函数,在分布函数的基础上,计算分布的数值特征,提出随机变异系数倒数方法,分析蛋白质二级结构的特征分布。四是蛋白质结构类预测,基于字统计模型和马尔可夫模型,设计了多元变量的信息融合方案,将某一种特征提取方法所得的多种特征信息及不同的特征提取方法所得的特征信息加以联系和融合;考虑不同氨基酸片段的结构特点及位置分布信息,提出了一种基于多水平的信息融合方案,采用多视觉、多权重的融合方案进行蛋白质结构类预测;提出了一种基于生物序列与结构特征的蛋白质结构类预测算法,发现位置特征的表现优于序列信息,但二者又是彼此互补,因此,融合两类信息是提高蛋白质结构类型预测准确率的一种有效方法;提出了一种基于简化PSSM与结构位置信息的蛋白质结构类预测方法,结果表明Red-PSSM结构特征和基于位置的结构特征反映相关蛋白质的结构类的一些关键信息,它们的融合对我们开发更强大的蛋白质结构类预测方法提供了一种新思路。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
与生物序列结构、功能有关的数学方法研究
几何结构引导的三维模型色彩编辑与处理问题研究
蛋白质与RNA相互作用局部结构及其功能的生物信息学方法研究
基于序列信息的酶蛋白质分子结构功能的理论研究