大规模基因表达序列分析数据分布式并行消息传播聚类方法研究

基本信息
批准号:61100118
项目类别:青年科学基金项目
资助金额:21.00
负责人:唐东明
学科分类:
依托单位:西南交通大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:李宗林,王明文,石磊,郑伟范,成飏,姚兆东,袁崇溟,成晓利
关键词:
模式识别MapReduce聚类分析基因表达序列分析数据并行
结项摘要

基因表达序列分析技术(SAGE)是一种快速详细分析转录的最佳方法.聚类分析是一种非常有用的SAGE数据分析方法,被用于发现SAGE数据中潜在,新的或隐含的转录或基因组,但是现有SAGE数据聚类分析算法只能用于小规模数据.这几年SAGE数据已经成指数级增长,因此迫切需要能够处理大规模SAGE数据的聚类分析方法.通过对SAGE数据数学模型化,结合science上发表的仿射传播聚类分析方法(AP),进行理论分析,提出了一种结合MapReduce,MPI和NoSQL思想,用于大规模SAGE数据分析的分布式并行消息传播聚类分析方法,能够克服AP算法不能处理大规模数据的缺陷.课题主要研究内容为:用数学模型来模拟SAGE数据产生的过程;数据的局部存储和全局数据交换;AP算法的并行化;分布式和并行计算平台的设计与实现.实现一种并行的用于SAGE数据分析的消息传播聚类分析方法.本课题研究具有理论和实际意义.

项目摘要

聚类分析的基本概念是将事物分成不同的组,分在同一组的事物拥有相似的属性。仿射传播聚类分析算法(APC)是一个新提出的算法,并且已经被用于多个领域。但是在大数据分析领域遇到困难,为了克服这个缺陷,项目研究人员提出在Hadoop分布式并行框架下重新构建APC算法(简称APCH)。APCH能够快速有效的处理大规模的数据分析任务,并且APCH已经开源共享在https://github.com/HelloWorldCN/MapReduceAPC。基因表达序列数据能够在mRNA层面获得全局的表达序列。为了快速的从大型基因表达数据中发现有意义的群组关联关系,项目研究人员提出了一种跨平台的并行快速计算基因序列最大信息系数的方法,该方法能帮助挖掘基因序列中的关联关系和共表达的基因与组织。该方法已经开源共享在https://github.com/HelloWorldCN/RapidMic。此外在项目资助下,为在一对多通信环境下保持私密性和认证性,项目研究人员提出了一种基于生物统计特征身份的面向群组的签密方案。另外基于大规模交通流随机行为的重要性,通过引入顾前势并用动态可变的随机慢化概率代替原有的固定慢化概率,项目研究人员提出了一种考虑可变慢化概率的交通流元胞自动机模型。最后,项目研究人员利用M矩阵理论、矩阵不等式方法、矢量Lyapunov函数法相关理论,通过构造适当的Lyapunov函数,引入适当的曲线,得到了该类模糊高阶神经网络的全局指数稳定性的充分条件。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

唐东明的其他基金

批准号:11104134
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

面向大规模基因表达谱的数据挖掘及并行分析方法研究

批准号:61702134
批准年份:2017
负责人:廖清
学科分类:F0213
资助金额:25.00
项目类别:青年科学基金项目
2

大规模数据聚类的并行进化算法骨架研究

批准号:61163006
批准年份:2011
负责人:万剑怡
学科分类:F0202
资助金额:49.00
项目类别:地区科学基金项目
3

面向大规模序列同源问题的并行分布式算法及其关键技术研究

批准号:61672480
批准年份:2016
负责人:徐云
学科分类:F0204
资助金额:62.00
项目类别:面上项目
4

基于非显式隐私保护的大规模高维数据聚类方法研究

批准号:61370213
批准年份:2013
负责人:张晓峰
学科分类:F0206
资助金额:75.00
项目类别:面上项目