基于集成异构网络的表型-基因关联挖掘研究

基本信息
批准号:61300166
项目类别:青年科学基金项目
资助金额:23.00
负责人:谢茂强
学科分类:
依托单位:南开大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:黄亚楼,殷爱茹,张耀功,何志成,张宏雨,张璐恒,曲济时,徐英杰
关键词:
集成异构网络跨物种分析数据挖掘表型基因关联大数据
结项摘要

Predicting and analyzing phenotype-gene associations is the key problem in bioinformatics, since controlling phenotype by manipulating DNAs implies many essential applications such as disease treatment and food production. Recently, network-based algorithms were developed for mining potential phenotype-gene associations with the help of the global topology in biological networks. However, they can only prioritize or cluster candidate genes in single gene network with insufficent using of the topologies in disease phenotype network and phenotype-gene bipartite network. In our proposal, phenotype similarity network, gene network and phenotype-gene network are integrated into one heterogeneous network, in order to preserve the topologies of original networks. Based on it, following research will be conducted: (1)Modelling the prediction of phenotype-gene association as an optimization problem, in which relations between nodes of different types and sparseness of known phenotype-gene associations should be considered in loss function and related constraints. To solve it, an optimizing algorithm called bi-random walk will be proposed. It can take balance between walking in heterogeneous network and avoid the bias from the sparse associations(2) Designing a clustering analysis tool for complex genetic diseases, which can cluster phenotypes and genes respectively with the consistent constraint from known OMIM associations. (3) Mining conserved phenotype-gene association modules, by which the achievement of mouse research can be transferred to the human phenotype-gene association research.

表型-基因关联预测和分析在疾病治疗、食物增产等方面具有重大意义,是生物信息学中的核心问题,在全基因组网络上采用类似于PageRank的随机游走方法逐渐成为主流.但传统方法只能在单个基因网络上进行挖掘,在对表型网络数据、患者数据的利用中丢失很多结构信息.本课题将表型、基因和表型-基因关联三个网络集成为一个异构网络,以充分保留各网络中的结构信息,并在此基础上开展关联预测、聚类分析和同源模块挖掘工作:1)将表型-基因关联预测建模为优化问题,通过损失函数设计来利用已知关联和网络结构,改进优化方法以适应表型-基因关联稀少等问题;2)通过最大化表型聚类和基因聚类的一致性来实现对表型和基因的协同聚类,为复杂疾病提供表型簇-基因簇级别的聚类分析工具;3)提出跨物种表型-基因同源模块挖掘,将研究相对充分的家鼠上的成果引入到人类的表型-基因关联挖掘中.对于集成异构网络的研究也会推动大数据下的异构数据挖掘的发展

项目摘要

本项目研究生物表型-基因关联关系的预测问题,表型-基因关联预测及分析对了解疾病的分子发病机制、疾病治疗、药物研发等具有重要意义,已经成为生物信息学的热门研究领域。..传统的连接分析方法定位出的染色体基因在通常cM级别,包含成百上千个可能的关联基因,进一步筛选研究需要生物研究人员进一步通过实验完成,耗时耗力。而随着高通量测序技术的发展,多种生物网络数据得到丰富和完善,基于机器学习、数据挖掘的方法越来越多地被应用到这一问题的研究中。..为了充分利用已有的表型-基因关联信息以及表型网络和基因交互网络信息,本项目将表型、基因、表型-基因关联三个网络集成为一个异构网络,提出循环二部图的概念,并基于此设计了双向随机游走算法来充分挖掘可能的表型-基因关联关系,同时,为了解决人类表型-基因关联数据稀缺的问题,课题组将老鼠的表型基因信息迁移至人类网络中,提出了跨物种的双向随机游走算法。此外,为了更好地研究基因模块,针对表型的层次关系设计了基于层次结构信息的一致性多非负矩阵分解模型。最后,为了更好地计算和分析表型-基因关联关系,方便研究人员使用,设计了PheGenEx和BioData Miner的表型-基因关联关系可视化查询平台。..本项目系统研究了表型-基因关联关系的预测问题、聚类分析问题,推动了该类问题的前进,同时推进了异构网络数据挖掘问题的进一步发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
4

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
5

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021

谢茂强的其他基金

相似国自然基金

1

基于集成异构网络的民航旅客-航班关联挖掘研究

批准号:61502499
批准年份:2015
负责人:卢敏
学科分类:F0214
资助金额:18.00
项目类别:青年科学基金项目
2

基于语义匹配的异构网络服务集成研究

批准号:41201393
批准年份:2012
负责人:何杰
学科分类:D0114
资助金额:25.00
项目类别:青年科学基金项目
3

多源异构数据中的攻击关联模式挖掘方法研究

批准号:61802081
批准年份:2018
负责人:申国伟
学科分类:F0205
资助金额:27.00
项目类别:青年科学基金项目
4

基于内聚约束的大型异构数据源集成探索式模式挖掘方法研究

批准号:61872276
批准年份:2018
负责人:吴小莹
学科分类:F0202
资助金额:63.00
项目类别:面上项目