How to apply the divide-and-conquer strategies to effectively handle the classification problem of big data stored in distributed systems is a big challenge in the filed of big data analysis. In order to tackle this challenge, this project proposal proposes a dynamically selective ensemble learning strategy based on a new machine learning scheme, named extreme learning machine (ELM) which has a very fast training speed and good generalization performance. The main research tasks include: (1) sampling and partitioning to distributed big data based on probability density estimation technology; (2) the uncertainty minimization-based selective ensemble learning algorithm and theory; and (3) the optimized MapReduce implementation to ELM ensemble learning model and its application to smart grid big data. The expected outcomes of this project will set up the theoretical foundations for dividing distributed big data and fusing base ELM models and provide a distributed algorithm framework for development of ELM-based ensemble learning. The outcomes will also provide the implementation technologies for applications of distributed big data classification with the high availability and fault-tolerance. The research results will promote technology innovation and industrial upgrading in the research areas of distributed big data.
如何利用分治-融合快速有效地处理分布式存储大数据的分类问题是当前大数据研究的挑战之一。针对这一挑战,本项目在充分利用极速学习机(Extreme Learning Machine-ELM)训练速度快和泛化能力好优势的基础上,通过对分布式存储大数据执行基于概率密度函数估计的分治,构建不确定性框架下的ELM融合模型,使之能有效地解决TB级分布式存储大数据的分类问题。主要的研究内容包括:(1)基于概率密度估计的分布式存储大数据抽样与划分方法;(2)不确定性框架下的动态选择性ELM集成学习算法与理论;(3)分布式ELM集成模型的MapReduce优化实现及其在智能电网大数据中的应用。预期研究成果将为针对分布式存储大数据的分治-融合提供理论基础,为分布式ELM集成学习系统的设计提供算法框架,为分布式存储大数据的分类应用提供高可用性和高容错能力的实现技术,促进分布式存储大数据研究的技术创新和产业升级。
如何利用分治-融合快速有效地处理分布式存储大数据的分类问题是当前大数据研究的挑战之一。针对这一挑战,本项目在充分利用极速学习机(Extreme Learning Machine-ELM)训练速度快和泛化能力好优势的基础上,通过对分布式存储大数据执行基于概率密度函数估计的分治,构建不确定性框架下的ELM融合模型,使之能有效地解决TB级分布式存储大数据的分类问题。主要的研究内容包括:(1)基于概率密度估计的分布式存储大数据抽样与划分方法;(2)不确定性框架下的动态选择性ELM集成学习算法与理论;(3)分布式ELM集成模型的MapReduce优化实现及其在智能电网大数据中的应用。预期研究成果将为针对分布式存储大数据的分治-融合提供理论基础,为分布式ELM集成学习系统的设计提供算法框架,为分布式存储大数据的分类应用提供高可用性和高容错能力的实现技术,促进分布式存储大数据研究的技术创新和产业升级。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于FTA-BN模型的页岩气井口装置失效概率分析
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
面向非欧几何数据的分布式内存数据库存储方法研究
基于分治融合与主动学习的极速学习机方法研究
基于张量极速学习机的多模生物特征融合识别方法
面向大数据的渐进式集成学习方法与分布式算法研究