基因表达序列分析技术(SAGE)是一种快速详细分析转录的最佳方法.聚类分析是一种非常有用的SAGE数据分析方法,被用于发现SAGE数据中潜在,新的或隐含的转录或基因组,但是现有SAGE数据聚类分析算法只能用于小规模数据.这几年SAGE数据已经成指数级增长,因此迫切需要能够处理大规模SAGE数据的聚类分析方法.通过对SAGE数据数学模型化,结合science上发表的仿射传播聚类分析方法(AP),进行理论分析,提出了一种结合MapReduce,MPI和NoSQL思想,用于大规模SAGE数据分析的分布式并行消息传播聚类分析方法,能够克服AP算法不能处理大规模数据的缺陷.课题主要研究内容为:用数学模型来模拟SAGE数据产生的过程;数据的局部存储和全局数据交换;AP算法的并行化;分布式和并行计算平台的设计与实现.实现一种并行的用于SAGE数据分析的消息传播聚类分析方法.本课题研究具有理论和实际意义.
聚类分析的基本概念是将事物分成不同的组,分在同一组的事物拥有相似的属性。仿射传播聚类分析算法(APC)是一个新提出的算法,并且已经被用于多个领域。但是在大数据分析领域遇到困难,为了克服这个缺陷,项目研究人员提出在Hadoop分布式并行框架下重新构建APC算法(简称APCH)。APCH能够快速有效的处理大规模的数据分析任务,并且APCH已经开源共享在https://github.com/HelloWorldCN/MapReduceAPC。基因表达序列数据能够在mRNA层面获得全局的表达序列。为了快速的从大型基因表达数据中发现有意义的群组关联关系,项目研究人员提出了一种跨平台的并行快速计算基因序列最大信息系数的方法,该方法能帮助挖掘基因序列中的关联关系和共表达的基因与组织。该方法已经开源共享在https://github.com/HelloWorldCN/RapidMic。此外在项目资助下,为在一对多通信环境下保持私密性和认证性,项目研究人员提出了一种基于生物统计特征身份的面向群组的签密方案。另外基于大规模交通流随机行为的重要性,通过引入顾前势并用动态可变的随机慢化概率代替原有的固定慢化概率,项目研究人员提出了一种考虑可变慢化概率的交通流元胞自动机模型。最后,项目研究人员利用M矩阵理论、矩阵不等式方法、矢量Lyapunov函数法相关理论,通过构造适当的Lyapunov函数,引入适当的曲线,得到了该类模糊高阶神经网络的全局指数稳定性的充分条件。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
面向大规模基因表达谱的数据挖掘及并行分析方法研究
大规模数据聚类的并行进化算法骨架研究
面向大规模序列同源问题的并行分布式算法及其关键技术研究
基于非显式隐私保护的大规模高维数据聚类方法研究