基于不可约序关系的复杂疾病诊断基因模式发现技术研究

基本信息
批准号:61272182
项目类别:面上项目
资助金额:81.00
负责人:赵宇海
学科分类:
依托单位:东北大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:韩东红,孙永佼,毛克明,张恩德,丁国辉,毕鑫,王潇杨,刘思奇,李杨
关键词:
特征提取诊断基因基因表达数据数据挖掘不可约序关系
结项摘要

Diagnostic genes refer to the genes closely related to a specific disease phenotype, the power of which to distinguish between different classes are often high. Since discovering diagnostic genes is highly important for exploring the pathogeny, diagnosis, treatment and prevention of disease, it has been one of the hottest and the most important topics in bioinformatics. Most of the existing methods perform diagonistic gene discovery under the assumption of the independence among genes or only consider the combinational discriminative power of genes. That is, the abundant information of the interrelationship among the selected genes is ignored. This study proposes the novel idea that incorporating the ordering information of gene expression values into diagnostic gene discovery and introduces the novel conception of non-redundant discrimative sequence. As a result, it is enabled to achieve higher accuracy of disease diagnosis using fewer genes. This study focuses on the design of the novel and biologically explicable diagnostic gene pattern and the development of the effective and efficient discovery algorithms. The main contents of this research include: construction of microarray data sequence model, unsupervised discovery of diagnostic gene pattern based on non-reducible sequence, supervised discovery of diagnostic gene pattern based on non-reducible sequence, discovery of diagnostic gene pattern based on non-reducible sequence with noise consideration and reduction of resulting patterns based on synergic non-reducible sequences. The in-depth study of these problems is of great value to improve the disease diagnosis accuracy, narrow the scope of the interesting candidate genes, reduce the heavy expenses associated with follow-up biological or clinical validation of selected genes. Moreover, it can provide a new insight into the pathogenesis problem, which, however, is never discovered by any existing method. Therefore, this research is of high theoretical values and extensive applications.

诊断基因是指与特定疾病表型密切相关的基因,通常具有很强的疾病标识能力。诊断基因的发现对探究疾病成因及疾病的诊治、预防至关重要,已成为当前生物信息学领域的研究热点和重点之一。现有方法忽略了基因间的相互关系信息,探究基因交互与疾病关联的能力较弱。本研究提出利用基因表达值间的序关系发现诊断基因模式的新思路,并引入不可约序关系体现基因的交互,用更少的基因获得更准确的疾病诊断。本研究侧重于设计新的诊断基因模式及高效、准确的发现算法。主要内容包括:微阵列数据的序列化模型构建、基于不可约序关系的有监督诊断基因模式发现、基于不可约序关系的无监督诊断基因模式发现、"噪音"环境中基于不可约序关系的诊断基因模式发现、基于协同不可约序关系的诊断基因模式精简等。研究成果对提高诊断准确率、缩小候选基因范围、降低诊断费用,都具有非常重要的实际意义,并且能为考察疾病成因提供新视角。具有较高的理论研究价值和广阔的应用前景。

项目摘要

本研究针对现有基因-疾病关联研究方法假定基因独立或仅考虑基因组合效应的问题,提出了利用基因间的序关系发现诊断基因模式的新思路。以对基因表达数据的不可约序关系研究为基础,提出了一系列诊断基因模式发现的新模型和新方法。主要研究内容包括:微阵列数据的序列化模型构建、基于不可约序关系的有监督诊断基因模式发现、基于不可约序关系的无监督诊断基因模式发现、“噪音”环境中基于不可约序关系的诊断基因模式发现、基于协同不可约序关系的诊断基因模式精简等。研究中,分别提出了对“噪音”有很好鲁棒性的序关系模型g*-sequence,引入了“统计链”的概念,在降低候选基因数30%~40%的同时将诊断准确率提高了10%~30%左右;提出了无监督的基因-疾病关联研究新框架,在证明问题的NP-Complete复杂性基础上,通过引入投影距离,提出了一种高效的无监督算法FINDER,将同类算法的效率提高了2~3个数量级;提出了有监督的基因-疾病关联研究新框架,引入了“兴趣非冗余对比序列规则”的概念,设计了“模板驱动”的枚举策略,将同类算法的效率提高了1个数量级;提出了非冗余协同图模式挖掘问题,基于对非冗余协同图模式的性质研究,提出了两种快速检测非冗余协同图模式的方法,并设计了一种高效的深度优先挖掘算法GINS,显著提高了疾病诊断的准确率。大量实验表明,本研究中提出的模型和算法执行效果良好,能有效弥补传统方法的不足,高效、准确地发现许多新的、具有实际生物意义的致病基因模式。研究成果对疾病的诊治、预防、发病机理研究等,具有非常重要的理论和实际意义。同时,提出的模型和方法可以推广至许多其它具有小样本高维特征的机器学习领域问题研究,效果显著。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

结核性胸膜炎分子及生化免疫学诊断研究进展

结核性胸膜炎分子及生化免疫学诊断研究进展

DOI:10.3760/cma.j.issn.1674-2397.2020.05.013
发表时间:2020
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

相似国自然基金

1

算子的强不可约极分解及强不可约Schauder基研究

批准号:11401283
批准年份:2014
负责人:田更
学科分类:A0207
资助金额:22.00
项目类别:青年科学基金项目
2

基于属性偏序模式发现原理的多维混合数据模式分类研究

批准号:61273019
批准年份:2012
负责人:洪文学
学科分类:F0605
资助金额:62.00
项目类别:面上项目
3

完全不可约算子和非交换逼近

批准号:19471033
批准年份:1994
负责人:江泽坚
学科分类:A0207
资助金额:2.80
项目类别:面上项目
4

巴拿赫空间上的强不可约算子

批准号:10926173
批准年份:2009
负责人:张云南
学科分类:A0207
资助金额:3.00
项目类别:数学天元基金项目