建立人乳头瘤病毒(HPV)分型模型对宫颈癌的早期发现及指导治疗具有重要意义,该分型的主要依据是HPV序列之间的差异,从生物序列分析的角度,建立该模型的瓶颈在于缺乏有效手段获取同源序列信息,提取序列的局部与整体信息,及融合包括序列局部和整体信息的多重信息。针对这些问题,本项目从分析HPV蛋白序列入手,重点研究(1)基于氨基酸"突变矩阵",构建HPV的"蛋白质空间",获取HPV同源蛋白序列;(2)在序列信息提取中,设计多元统计算法,系统地从HPV同源蛋白序列中提取包括局部和整体信息的多重信息;(3)以模糊神经网络的分类策略为平台,更好地融合HPV同源蛋白序列的多重信息。项目将利用测试数据、独立样本数据,从统计和信息学两方面对模型进行验证和修正。本研究建立的宫颈癌HPV分型模型,不但为HPV的分型检测提供了依据,有助于宫颈癌早期发现及指导治疗,而且还可以推广到其它肿瘤的相关研究中。
建立人乳头瘤病毒(HPV)分型模型对宫颈癌的早期发现及指导治疗具有重要意义,而生物序列比较和分类是建立HPV分型模型的关键。因此,本项目针对生物序列比较和分类方法中信息单一、信息提取不够全面、缺乏信息融合等问题,从两方面展开:一方面是构建有效算法,获取序列的局部和整体信息,提高生物序列比较的效率;另一方面,设计多重信息融合策略,提高分类及预测的准确率。具体如下:(1)根据每个氨基酸片段在序列中等概率出现,定义氨基酸片段的位置函数,通过计算不同序列片段之间重叠度,获取序列的局部重叠信息;通过识别氨基酸片段连续两次出现的位置差,得到氨基酸片段的位置序列,进而推断一个氨基酸片段的位置分布函数,计算其分布函数的数值特征,作为氨基酸片段的位置分布的局部信息;(2)基于序列片段出现的二元性,构建其二项分布模型,描述序列中全部序列片段的整体分布信息;为了较准确地获取序列的整体信息,本项目还马尔科夫模型中采用极大似然方法估计不同序列片段出现的概率,并用它来标准化序列的整体分布;(3)针对现有序列比较方法的缺陷,本项目首次在动态规划算法和LZ复杂度的基础上设计了一种新的DNA序列分析方法,它采用LZ复杂度将序列打成片段,利用动态规划算法,以片段为单位进行相似性比对,寻找最优比对,首次实现比对算法与非比对算法的有效融合;(4)基于氨基酸的性质,本项目考虑不同氨基酸片段的结构特点及位置分布信息,设计了多视觉、多权重的融合方案,结果表明该预测方案的准确率明显要高于已有的方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
粗颗粒土的静止土压力系数非线性分析与计算方法
低轨卫星通信信道分配策略
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
联合序列结构特征和临床信息的多步修正宫颈癌HPV分型模型研究
宫颈癌HPV分型检测的关键算法研究与应用
链霉菌的分子分类体系及多位点序列分型研究
HPV致宫颈癌的比较蛋白质组学研究