The identification of disease genes can help understand the initiation and development of diseases, thereby providing possible solutions for the prevention and treatment of the diseases. In this project, we aim to develop new computational algorithms and mathematic models to predict disease genes by mining the large amount of public available omics data. To this end, we will firstly develop new machine learning approaches to predict driver mutations that are responsible for the corresponding disease; Secondly, with known disease genes, new clustering algorithms will be proposed to identify disease related network modules from molecular networks; Thirdly, a disease association network will be constructed based on disease descriptions from literature and disease related modules, where the association network describes the relationship between diseases; Finally, new algorithms and mathematical models will be developed to predict potential disease genes (including noncoding genes) as well as dysfunctional pathways based on the heterogeneous disease-gene network. Due to the consistence and difference between distinct types of omics data, we will develop new computational approaches to integrate these data based on the molecular networks, where the relationships between molecules can be described as different types of networks. This research can help better understand how the diseases initiate, thereby providing alternative ways to drug discovery as well as wellness improvement. The outcome of this project will be helpful to the analysis of other kinds of big data.
疾病基因的识别可以帮助理解疾病的发生与发展机制,为疾病的预防和治疗提供帮助。本项目旨在开发新的智能计算方法与模型,通过挖掘公共生物组学大数据,预测疾病相关基因,并进一步预测可能的药靶。为此,本项目将首先开发新的机器学习算法,对疾病相关的驱动突变进行预测,并找到可能的疾病基因;其次,基于已知疾病基因的先验知识,结合疾病基因在分子网络上的模块化特性,开发新的图聚类算法识别疾病相关分子网络模块;再次,利用疾病的语义相关性和相关分子网络模块,构建疾病关联网络;最后,基于疾病-基因异构网络,发展新的算法与模型,预测疾病基因(包括非编码基因)。鉴于多种组学数据之间的一致性和互补性,本项目还将以分子网络为载体,开发高效的数据整合算法,以提高预测的精度。本项目的研究有助于认识复杂疾病的发生机制,为新药开发和提升健康水平提供有力支持。另外,研究成果对于其他类型大数据的研究也具有重要的参考价值。
1. 项目背景.疾病基因的识别可以帮助理解疾病的发生与发展机制。本项目旨在开发新的智能计算方法与模型,通过生物组学大数据的挖掘公共生物组学大数据,预测疾病相关基因,并进一步预测可能的药靶。..2. 主要研究内容.本项目的主要研究内容如下:(1)疾病基因识别与疾病驱动突变预测算法;(2)多组学数据整合算法;(3)生物网络的建模与挖掘算法。..3. 重要成果.针对乳腺癌转移,开发了高效智能算法,识别了乳腺癌转移相关的驱动突变,并进一步利用分子生物实验验证了相关预测结果,该项研究为理解乳腺癌转移发生的分子机制奠定了理论基础,为未来新药研发提供了技术支撑。.疾病并发症是临床中常见的现象,为疾病的靶向治疗造成了极大困难。开发了一种新颖的疾病并发症预测法PCID,通过整合不同类型的数据,可以精确预测疾病的并发症状,为设计治疗方案提供了理论指导。.针对预测药物与疾病之间的关联,课题组提出了一种基于网络嵌入的网络表示学习方法(HED),利用已知药物-疾病关联构建异构网络,利用网络嵌入来描述药物-疾病关联,然后训练一个分类器来预测新的潜在药物-疾病关联。实际数据集的结果表明,HED的表现优于现有的流行方法。通过该方法进行的一些预测已经被来自文献的证据所证实。如最初用于治疗心力衰竭、左心室功能不全和高血压的药物卡维地洛(Carvedilol)被HED预测可用于治疗房颤,这得到了临床试验的支持。为未来药物研发及药物与疾病的关联提供了理论和技术支持。..4. 关键数据.在项目执行期间,本课题的研究成果共计发表SCI收录学术论文25篇,获得两项专利授权。项目负责人以第一完成人荣获了教育部自然科学二等奖。组织召开2场学术研讨会议,参加6场国际学术会议并在部分会议中做邀请报告,邀请6名著名研究机构学者到访进行讲学/交流,培养人才培养1名博士后、2名博士生、5名硕士生。..5. 科学意义.本项目的研究有助于认识理解复杂疾病的发生发展的分子机制,为新药开发和提升健康水平提供有力支持。另外,本研究成果所开发的智能算法对于其他类型大数据挖掘的研究也具有重要的参考价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
跨社交网络用户对齐技术综述
基于多组学数据整合的药物响应预测及共同模式识别
基于代谢网络的多组学数据整合研究
基于多组学数据整合的癌症驱动突变识别
内含子保留的多组学数据整合分析方法研究