With the development of high-throughput technology, amounts of biological data are provided which make it possible for the early diagnosis and treatment of complex diseases. However, how to improve the reproducibility between association studies and complex disease, enhance the interpretability of results and make full use of the advantages of cloud computing platform are main concerns of biological related big data mining methods. In this study our data mining task is taken on a cloud platform that based on FPGA, including analyze CNV data, miRNA data, and protein-protein interactions data. The contributions of this study can be highlighted as follows: to provide a theoretical guidance for optimization experiments, regularization technology is applied to identify the most representative sample data; Combined with the existing biological data expression patterns, and mining the essential characteristics associated with complex diseases, finally the dimensionality reduction technology is achieved by using structured sparsity-norm; To make full use of data, a manifold learning based regularizer-term is added into nonnegative matrix factorization optimization problem for clustering usage and further improve the interpretability; For the.classification task with small sample size a non-parametric sparse representation based classifier is devised. Theoretical model and the actual utilization of biological significance can provide a new insight into revealing the pathogenesis of complex diseases and the scientific background of treating and drug designing in molecular level.
随着高通量芯片技术的发展,海量的生物数据为复杂疾病的早期诊断与治疗提供了可能。但是如何提高复杂疾病关联研究的可重复性,增强研究结果的可解释性以及如何充分利用云平台的计算优势是生物大数据分析的关键问题。本项目拟在基于FPGA技术的云平台上开展复杂疾病的大数据挖掘,以分析CNV数据、miRNA数据、蛋白质相互作用数据为基础,通过建立相应的优化模型来开展复杂疾病的关联研究:利用正则化技术找出最具代表性的样本数据,为优化实验提供理论指导;结合已有的生物数据表达模式,挖掘出复杂疾病相关的本质特征并利用结构化稀疏方法实现降维;充分利用数据的分布特点设计出一种基于流型正则与非负矩阵分解的聚类方法以提高关联研究的可解释性;提出一种无参数稀疏表达的小样本数据分类方法进而提高分类方法的扩展性;综合利用理论模型与实际生物意义为揭示复杂疾病的发生发展机制及临床诊断、治疗和药物设计提供了分子水平的科学依据。
随着高通量芯片技术的发展,海量的生物数据为复杂疾病的早期诊断与治疗提供了可能。但是如何提高复杂疾病关联研究的可重复性,增强研究结果的可解释性以及如何充分利用云平台的计算优势是生物大数据分析的关键问题。本项目拟在基于FPGA技术的云平台上开展复杂疾病的大数据挖掘,以分析CNV数据、miRNA数据、蛋白质相互作用数据为基础,通过建立相应的优化模型来开展复杂疾病的关联研究:利用正则化技术找出最具代表性的样本数据,为优化实验提供理论指导;结合已有的生物数据表达模式,挖掘出复杂疾病相关的本质特征并利用结构化稀疏方法实现降维;充分利用数据的分布特点设计出一种基于流型正则与非负矩阵分解的聚类方法以提高关联研究的可解释性;提出一种无参数稀疏表达的小样本数据分类方法进而提高分类方法的扩展性;综合利用理论模型与实际生物意义为揭示复杂疾病的发生发展机制及临床诊断、治疗和药物设计提供了分子水平的科学依据。发表论文41篇,培养博士毕业生13名,硕士毕业生8人。获省创新团队1个。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
TGF-β1-Smad2/3信号转导通路在百草枯中毒致肺纤维化中的作用
面向高维大数据的正则化统计方法的相关研究
面向管理决策大数据分析的理论与方法
面向大数据分析系统的任务调度优化方法研究
面向复杂情报的大数据分析方法与决策支持