Measuring similarity between diseases plays an important role in disease-related molecular function research. Currently, literature, gene, and semantic association data between diseases is often used to calculate disease similarity. Disease similarity can be reflected by each type of association data from different view. However, not all of these association data is considered in existing methods. In order to comprehensively understand disease similarity, we focus on fusing multi-association data. The main studies include: 1) Method for calculating disease similarity is proposed by fusing multi-association data. First, disease similarities based on existing methods are compared using real associations and permutated associations, and false discovery rate (FDR) of disease similarity from each type of association can be accessed. Then, P-value of the disease similarity can be obtained using Fisher's combined probability test. 2) Receiver Operating Characteristic (ROC) curve is exploited to access the performance. In addition, the method is validated using the hypothesis that similar diseases can be treated by the same drugs. 3) Potential therapeutic drugs of disease are predicted, and coherent paths between diseases are mined and prioritized, and then the calculation and analysis system of disease similarity is established.
疾病相似度对于研究与疾病相关的分子功能有非常重要的作用。当前,疾病对的文献、基因以及语义关联数据常被用于计算疾病相似度。尽管每种关联数据都从不同的角度反映了疾病的相似性,但是现有的方法并没有综合的利用所有的关联数据。为了更加全面地理解疾病相似度,本项目致力于融合所有的关联数据。本项目的主要研究内容包括以下三部分:1)设计多关联数据融合的疾病相似度方法。首先,比较真实的关联关系与重新排列的关联关系在已有的方法下的疾病相似性,基于每种类型的关联关系得到一个疾病相似性的假阳性率;然后通过Fisher联合概率检验得到疾病相似性的P-value。2)基于ROC(Receiver Operating Characteristic)曲线评估方法的性能,并验证方法符合假设“相似的疾病可以被同样的药物治疗”。3)预测疾病的潜在治疗药物、挖掘并排序疾病间的关联路径,进而构建疾病相似度计算与分析系统。
疾病相似度对于研究与疾病相关的分子功能有非常重要的作用。当前,疾病对的文献、基因以及语义关联数据常被用于计算疾病相似度。尽管每种关联数据都从不同的角度反映了疾病的相似性,但是现有的方法并没有综合的利用所有的关联数据。为了更加全面地理解疾病相似度,本项目致力于融合所有的关联数据。本项目的主要研究内容包括以下三部分:1)设计多关联数据融合的疾病相似度方法。首先,比较真实的关联关系与重新排列的关联关系在已有的方法下的疾病相似性,基于每种类型的关联关系得到一个疾病相似性的假阳性率;然后通过Fisher联合概率检验得到疾病相似性的P-value。2)基于ROC(Receiver Operating Characteristic)曲线评估方法的性能,并验证方法符合假设“相似的疾病可以被同样的药物治疗”。3)预测疾病的潜在治疗药物、挖掘并排序疾病间的关联路径,进而构建疾病相似度计算与分析系统。经过三年的研究,开发的疾病相似度算法已经发表在BMC Medical Genomics期刊上,该方法可应用于预测非编码RNA与疾病之间的关联,预测的AUC值达到90%左右。相关算法已经集成为一套疾病相似度分析工具集,发表在Bioinformatics期刊上。此外,我们还开发了一个代谢物与疾病关联数据库MetSigDis,并把疾病相似度方法应用于预测疾病相关的代谢产物,相关文章发表在Briefings in Bioinformatics期刊上。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
卫生系统韧性研究概况及其展望
基于相似度学习的异构数据聚类算法研究及其应用
基于特征头颅与相似度评估的人头建模关键算法研究
基于多相似度融合的非编码RNA结构比对和分类识别
基于数据集相似性的分类算法自动选择研究