在生物和医学的研究中采用基因矩阵技术为癌症的诊断和治疗提供了一条新思路。发现不同癌症的类型和准确地对癌症样本进行分类是成功地诊断和治疗癌症过程中非常重要的一环。发现癌症类型的任务由两个具有挑战性的子任务组成:(1) 在给定的基因表达数据里, 能够正确地估算出有多少种类型;(2) 能够准确地将样本分配到相应的类型。在这个项目中,我们提出了一个新的模式发现框架。该模式发现新框架包括了一种基于变换函数和扰动函数的新集成器生成技术,一种基于信心指数的新聚类集成算法和一种新聚类有效性指标。新集成器生成技术将采用变换函数和扰动函数来提高集成器的多样性和代表性。新聚类集成算法将对集成器中的聚类结果赋予相应的信心指数,以此来反映它们与原基因数据结构特性的吻合程度。新聚类有效性指标将同时考虑集成器中聚类结果对指标的影响程度和信心指数,集成器中聚类结果之间的相关程度,以及类型个数和样本维数的影响。
在生物和医学的研究中采用基因矩阵技术为癌症的诊断和治疗提供了一条新思路。而基因数据集的挑战在于数据集不但包含了大量的基因数据,而且包含了大量的噪音数据。我们提出了基于三次谱聚类的聚类集成框架,并将其应用在癌症基因表达数据模式发现中。该框架运用谱聚类算法不但对基因维和样本维进行聚类,而且对一致性矩阵进行分割,并在实验中取得很好的效果。虽然癌症模式发现的方法很多,很少研究人员同时考虑到在癌症聚类过程中同时运用硬聚类和软聚类。我们把模糊理论引入到聚类集成框架中,提出了四种不同的混合模糊聚类框架用于癌症基因表达数据的模式发现。相似性测量是从基因表达数据中进行癌症发现很重要的一环,也是聚类集成算法的重要影响因素。我们设计了一个相似性衡量指标,称为代表性距离,用于识别基因表达数据中不同的癌症样本,并在癌症数据集的实验上取得了很好的效果。提出了基于随机组合数据映射操作的混合聚类集成框架,该框架集成了不同维度下的随机组合数据映射操作、混合聚类技术、信心指数和图论规范切算法。新框架在癌症基因表达数据的模式发现中取得了很好的结果。此外,我们在癌症模式发现、聚类集成算法、半监督集成算法等方面进行了探讨,取得了一定成果。项目中已发表和已接收论文35篇,其中有16篇被SCI期刊收录。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于全模式全聚焦方法的裂纹超声成像定量检测
基于算法选择的聚类统一框架研究
基于多视图学习的癌症多组学数据聚类方法研究
基因表达数据中的二维模式发现方法研究
面向多源异构流数据的在线聚类集成算法研究及其应用