Diagnostic genes refer to the genes closely related to a specific disease phenotype, the power of which to distinguish between different classes are often high. Since discovering diagnostic genes is highly important for exploring the pathogeny, diagnosis, treatment and prevention of disease, it has been one of the hottest and the most important topics in bioinformatics. Most of the existing methods perform diagonistic gene discovery under the assumption of the independence among genes or only consider the combinational discriminative power of genes. That is, the abundant information of the interrelationship among the selected genes is ignored. This study proposes the novel idea that incorporating the ordering information of gene expression values into diagnostic gene discovery and introduces the novel conception of non-redundant discrimative sequence. As a result, it is enabled to achieve higher accuracy of disease diagnosis using fewer genes. This study focuses on the design of the novel and biologically explicable diagnostic gene pattern and the development of the effective and efficient discovery algorithms. The main contents of this research include: construction of microarray data sequence model, unsupervised discovery of diagnostic gene pattern based on non-reducible sequence, supervised discovery of diagnostic gene pattern based on non-reducible sequence, discovery of diagnostic gene pattern based on non-reducible sequence with noise consideration and reduction of resulting patterns based on synergic non-reducible sequences. The in-depth study of these problems is of great value to improve the disease diagnosis accuracy, narrow the scope of the interesting candidate genes, reduce the heavy expenses associated with follow-up biological or clinical validation of selected genes. Moreover, it can provide a new insight into the pathogenesis problem, which, however, is never discovered by any existing method. Therefore, this research is of high theoretical values and extensive applications.
诊断基因是指与特定疾病表型密切相关的基因,通常具有很强的疾病标识能力。诊断基因的发现对探究疾病成因及疾病的诊治、预防至关重要,已成为当前生物信息学领域的研究热点和重点之一。现有方法忽略了基因间的相互关系信息,探究基因交互与疾病关联的能力较弱。本研究提出利用基因表达值间的序关系发现诊断基因模式的新思路,并引入不可约序关系体现基因的交互,用更少的基因获得更准确的疾病诊断。本研究侧重于设计新的诊断基因模式及高效、准确的发现算法。主要内容包括:微阵列数据的序列化模型构建、基于不可约序关系的有监督诊断基因模式发现、基于不可约序关系的无监督诊断基因模式发现、"噪音"环境中基于不可约序关系的诊断基因模式发现、基于协同不可约序关系的诊断基因模式精简等。研究成果对提高诊断准确率、缩小候选基因范围、降低诊断费用,都具有非常重要的实际意义,并且能为考察疾病成因提供新视角。具有较高的理论研究价值和广阔的应用前景。
本研究针对现有基因-疾病关联研究方法假定基因独立或仅考虑基因组合效应的问题,提出了利用基因间的序关系发现诊断基因模式的新思路。以对基因表达数据的不可约序关系研究为基础,提出了一系列诊断基因模式发现的新模型和新方法。主要研究内容包括:微阵列数据的序列化模型构建、基于不可约序关系的有监督诊断基因模式发现、基于不可约序关系的无监督诊断基因模式发现、“噪音”环境中基于不可约序关系的诊断基因模式发现、基于协同不可约序关系的诊断基因模式精简等。研究中,分别提出了对“噪音”有很好鲁棒性的序关系模型g*-sequence,引入了“统计链”的概念,在降低候选基因数30%~40%的同时将诊断准确率提高了10%~30%左右;提出了无监督的基因-疾病关联研究新框架,在证明问题的NP-Complete复杂性基础上,通过引入投影距离,提出了一种高效的无监督算法FINDER,将同类算法的效率提高了2~3个数量级;提出了有监督的基因-疾病关联研究新框架,引入了“兴趣非冗余对比序列规则”的概念,设计了“模板驱动”的枚举策略,将同类算法的效率提高了1个数量级;提出了非冗余协同图模式挖掘问题,基于对非冗余协同图模式的性质研究,提出了两种快速检测非冗余协同图模式的方法,并设计了一种高效的深度优先挖掘算法GINS,显著提高了疾病诊断的准确率。大量实验表明,本研究中提出的模型和算法执行效果良好,能有效弥补传统方法的不足,高效、准确地发现许多新的、具有实际生物意义的致病基因模式。研究成果对疾病的诊治、预防、发病机理研究等,具有非常重要的理论和实际意义。同时,提出的模型和方法可以推广至许多其它具有小样本高维特征的机器学习领域问题研究,效果显著。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
结核性胸膜炎分子及生化免疫学诊断研究进展
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
算子的强不可约极分解及强不可约Schauder基研究
基于属性偏序模式发现原理的多维混合数据模式分类研究
完全不可约算子和非交换逼近
巴拿赫空间上的强不可约算子