本申请依据遗传疾病临床描述与蛋白质相互作用网络的关联关系,提出了一种新的人类遗传疾病基因预测方法。具体地说,首先对人类遗传疾病在线数据库进行文本挖掘,通过基于语境框架的向量空间模型方法,计算遗传疾病表型之间的重叠关系;其次,在传统的二维关联概率模型的基础上,提出了基于多维随机变量的两种新的概率模型- - 中心概率模型和外形概率模型;在此基础上,提出了基于多概率融合的致病基因预测数学模型,该模型通过综合利用联合概率、中心概率和外形概率,在多个层面上反映了表型相似性与蛋白质相互作用之间的关联规律,与传统的基于单一概率的模型相比,该数学模型更好地反映了生物系统的真实面貌,将具有更强的疾病基因预测能力。系统地调查蛋白质复合体与人类疾病之间关联性是破译人类疾病的遗传基础和分子基础研究方面的主要任务之一。诱发疾病基因的识别研究,对基因组学和医学具有重要的现实意义,是人类治愈遗传疾病的关键问题。
系统地调查蛋白质复合体与人类疾病之间关联性是破译人类疾病的遗传基础和分子基础研究方面的主要任务之一。诱发疾病基因的识别研究,对基因组学和医学具有重要的现实意义,是人类治愈遗传疾病的关键问题。本项目依据遗传疾病临床描述与蛋白质相互作用网络的关联关系,提出了一种新的人类遗传疾病基因预测方法。具体地说,首先对人类遗传疾病在线数据库OMIM进行文本挖掘,通过基于语境框架的向量空间模型方法,计算遗传疾病表型之间的重叠关系;其次,我们使用GeneOntology层次框架的拓扑结构和蛋白质功能词语的局部以及全局的语义影响,提出了一种新的蛋白质功能相似度以及蛋白质相似度计算方法。最后,在传统的二维关联概率模型的基础上,提出了基于多维随机变量的两种新的概率模型--中心概率模型和外形概率模型;在此基础上,提出了基于多概率融合的致病基因预测数学模型,该模型在多个层面上反映了表型相似性与蛋白质相互作用之间的关联规律。通过多次不同规模的数据试验结果的观察,我们认为,表型相似性与蛋白质相互作用关系来预测大规模遗传疾病与基因关系,有待于OMIM数据库的进一步充实,以及蛋白质相互作用网络的细化,面向机体层面的蛋白质关联关系数据库的完善。此外,考虑到micro-RNA也是诱发疾病的主要因素之一。因此本项目在micro-RNA相关疾病预测分析领域进行了有针对性的扩展研究,通过整合了基因组数据,提出了一种基于加权网络的microRNA相关的疾病预测分析方法。算法在10倍交叉验证下取得的ROC曲线面积达到了0.8884。最后,本项目组进行了面向大规模新一代DNA测序数据的SNP预测与检验算法研究,在基于BWT变换的参考基因组比对算法,尤其在模糊比对方面(即SNP位点的查找方面),进行了较深入的研究,取得了较好的效果。已完成的实验结果表明,我们的方法的比对速度和精度比现有的算法都有显著提高。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
湖北某地新生儿神经管畸形的病例对照研究
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于网络重构和多尺度模块分解的人类疾病基因预测方法研究
人类复杂遗传疾病基因定位的方法与优化策略
融合多种表型相似性和基因相似性的疾病关联基因预测方法
基于多组学数据整合的疾病基因预测方法研究