肿瘤是一种目前还不完全明白其发病机理的严重危害人类生命健康的分子疾病,而基因芯片与RNA-Seq技术的出现为从分子水平上研究其发病机理与临床诊断提供了强有力的手段。本课题研究了基于启发式信息的信息基因选择与特征抽取方法,设计了基于网络分量分析的调控网络构建方法。通过利用肿瘤类别信息来发现具有最高分类性能的最小基因子集并以基因在子集中的出现频数来度量基因与肿瘤的密切程度,从而能够发现重要的肿瘤相关基因;而通过基因表达谱的矩阵分解所获得的因子矩阵的统计信息来实现信息基因的选择能够满足聚类分析的要求。采用诸如因子分析与流形学习的特征抽取方法来实现基因表达谱的降维能够实现样本的可视化表示。通过对肿瘤基因表达谱结构特点的探索,能够发现肿瘤相关基因之间的调控关系与功能模块,为肿瘤分类模型构建、样本聚类分析与调控通路分析奠定基础,为最终设计肿瘤的临床诊断软件、肿瘤药物的研制以及肿瘤的个性化治疗提供依据。
基因芯片技术的出现为从分子水平上研究肿瘤致病机理提供了强有力的手段。我们的主要目标就是在目前公开发布的肿瘤基因表达谱数据集上开展基于启发式信息的数据降维与分析研究,发现那些肿瘤相关的致癌与抑癌基因及其相互关系,设计能够应用于肿瘤临床诊断的预测模型,以通过肿瘤相关基因调控网络的构建洞察肿瘤致病机理的本质特点。本课题组严格遵照项目计划书中所设计的各阶段计划要求进行。总体上说,我们完成了项目计划书中多数预期研究的内容和主要研究目标。首先,我们采用因子分析方法从基因表达谱中抽取潜在因子,并用抽取的因子构建预测模型,实验发现只需要很少的因子数量就能够获得足够好的分类预测性能。如果我们把这些因子解释成表达谱中一类基因的代表,由此推测可能需要很少的基因就能获得很好的预测模型。紧接着,我们根据这一推断设计了能够尽可能多地发现最佳的最小基因子集的基于启发式信息的宽度优先搜索方法的基因选择方法,这种方法采用基因在选出的基因子集中的出现频数来度量基因的重要性,进而通过这种基因重要性排序方法来发现重要的肿瘤致病基因与抑制基因。我们进一步发现选出的基因的出现频数关于基因的数量符合幂率分布,这充分表明排在前面的少数基因有可能成为肿瘤诊断的标志,通过分析选出的基因的功能、生物通路以及蛋白质相互作用网络,进一步证明我们的方法在发现重要肿瘤相关基因方面的优越性。我们还提出一种基于模板的相关滤波器方法来识别蕴含在差异表达基因中的肿瘤亚型全局模式,提出一种基于邻域粗糙集基因约简算法的集成分类器构建方法,等等,这些方法的实验结果很好。然而我们也发现采用基于水平集分割模型的肿瘤样本自动聚类方法的效果不是很好以及利用当前公开发布的肿瘤数据集构建实际的调控网络还存在一定困难。但是我们相信随着国际肿瘤基因组计划的顺利实施,更多精确的数字化肿瘤基因表达数据集的发布,对肿瘤致病机理的探索研究将会建立在新一代肿瘤基因组测序和数字化肿瘤基因表达数据的基础之上。总之,我们不仅注重尝试设计具有一定生物医学含义的数据挖掘新方法,而且注重对实验结果的生物医学分析。特别是,我们实际发表的SCI和EI检索论文数量比预期数量要多很多,而且发表的论文质量也符合项目计划书中对论文质量的要求。同时我们还申请了国家专利《一种基于启发式宽度优先搜索肿瘤相关基因的方法》一项,成功申报湖南省自然科学二等奖一项。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
眼散光的矢量分析法:一种新型眼散光分析方法的建立及对准分子激光屈光手术后视觉质量下降的预测和补救作用
基于离散分析方法的谱图理论研究及其在高维数据降维中的应用
肿瘤基因表达谱数据分析及应用算法研究
cDNA微阵列基因表达谱遗传模型构建与分析方法的研究
数据缺失时高维数据降维分析的方法、理论与应用