大规模基因表达序列分析数据分布式并行消息传播聚类方法研究

基本信息

批准号：61100118

项目类别：青年科学基金项目

资助金额：21.00

负责人：唐东明

学科分类：

依托单位：西南交通大学

批准年份：2011

结题年份：2014

起止时间：2012-01-01 - 2014-12-31

项目状态：已结题

项目参与者：李宗林,王明文,石磊,郑伟范,成飏,姚兆东,袁崇溟,成晓利

关键词：

模式识别MapReduce聚类分析基因表达序列分析数据并行

结项摘要

基因表达序列分析技术(SAGE)是一种快速详细分析转录的最佳方法.聚类分析是一种非常有用的SAGE数据分析方法,被用于发现SAGE数据中潜在,新的或隐含的转录或基因组,但是现有SAGE数据聚类分析算法只能用于小规模数据.这几年SAGE数据已经成指数级增长,因此迫切需要能够处理大规模SAGE数据的聚类分析方法.通过对SAGE数据数学模型化,结合science上发表的仿射传播聚类分析方法(AP),进行理论分析,提出了一种结合MapReduce,MPI和NoSQL思想,用于大规模SAGE数据分析的分布式并行消息传播聚类分析方法,能够克服AP算法不能处理大规模数据的缺陷.课题主要研究内容为:用数学模型来模拟SAGE数据产生的过程;数据的局部存储和全局数据交换;AP算法的并行化;分布式和并行计算平台的设计与实现.实现一种并行的用于SAGE数据分析的消息传播聚类分析方法.本课题研究具有理论和实际意义.

项目摘要

聚类分析的基本概念是将事物分成不同的组，分在同一组的事物拥有相似的属性。仿射传播聚类分析算法(APC)是一个新提出的算法，并且已经被用于多个领域。但是在大数据分析领域遇到困难，为了克服这个缺陷，项目研究人员提出在Hadoop分布式并行框架下重新构建APC算法（简称APCH）。APCH能够快速有效的处理大规模的数据分析任务，并且APCH已经开源共享在https://github.com/HelloWorldCN/MapReduceAPC。基因表达序列数据能够在mRNA层面获得全局的表达序列。为了快速的从大型基因表达数据中发现有意义的群组关联关系，项目研究人员提出了一种跨平台的并行快速计算基因序列最大信息系数的方法，该方法能帮助挖掘基因序列中的关联关系和共表达的基因与组织。该方法已经开源共享在https://github.com/HelloWorldCN/RapidMic。此外在项目资助下，为在一对多通信环境下保持私密性和认证性，项目研究人员提出了一种基于生物统计特征身份的面向群组的签密方案。另外基于大规模交通流随机行为的重要性，通过引入顾前势并用动态可变的随机慢化概率代替原有的固定慢化概率，项目研究人员提出了一种考虑可变慢化概率的交通流元胞自动机模型。最后，项目研究人员利用Ｍ矩阵理论、矩阵不等式方法、矢量Lyapunov函数法相关理论，通过构造适当的Lyapunov函数，引入适当的曲线，得到了该类模糊高阶神经网络的全局指数稳定性的充分条件。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

DOI：10.7498/aps.68.20181682

发表时间：2019

唐东明的其他基金

批准号：11104134

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

相似国自然基金

面向大规模基因表达谱的数据挖掘及并行分析方法研究

批准号：61702134

批准年份：2017

负责人：廖清

学科分类：F0213

资助金额：25.00

项目类别：青年科学基金项目

大规模数据聚类的并行进化算法骨架研究

批准号：61163006

批准年份：2011

负责人：万剑怡

学科分类：F0202

资助金额：49.00

项目类别：地区科学基金项目

面向大规模序列同源问题的并行分布式算法及其关键技术研究

批准号：61672480

批准年份：2016

负责人：徐云

学科分类：F0204

资助金额：62.00

项目类别：面上项目

基于非显式隐私保护的大规模高维数据聚类方法研究

批准号：61370213

批准年份：2013

负责人：张晓峰

学科分类：F0206

资助金额：75.00

项目类别：面上项目

大规模基因表达序列分析数据分布式并行消息传播聚类方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

智能煤矿建设路线与工程实践

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

唐东明的其他基金

磁畴与畴壁结构在软磁薄膜磁谱中的动力学效应研究

相似国自然基金