Big data has the characteristics of large amount, high dimension, diversity, rapid, low value density and uncertainty. The data mining system for big data has two key science problems which are dimension disaster and information rich but lack of knowledge. The project intends to use dimension reduction for big data as the breakthrough point, develop advantages of granular computing theory to deal with massive, high-dimensional, uncertain data, research methods of granular computing theory and fish swarm optimization for big data dimension reduction. The project studies for big data on neighborhood granule, binary representation of granule, operation and reduction of granule, uncertainty measure of granule, method of granule based dimension reduction, method of fish swarm optimization based dimension reduction, multi-granularity dynamic learning mechanism. The research aims to overcome dimension disaster of big data set, reduce the complexity of big data system, establish the theory of granular computing and fish swarm optimization based dimension reduction. We use neighborhood relation for granulation of hybrid data, exploit the binary granule representation for conversion of set operation, improve performance of granule operations by radix sort, explore the measurement and computation of granule for big data, enhance the ability of parallel processing of big data dimension reduction using fish swarm algorithm, build key technology and support method for big data dimension reduction. The research of our project will extend the granular computing theory and swarm intelligence computation theory to the field of big data dimension reduction, which has important value of theoretical research and practical application.
大数据具有量大、高维、多样、快速、价值密度低以及不确定性的特点,目前大数据信息挖掘系统存在维数灾难、信息丰富但知识贫乏等关键科学问题。本课题拟以大数据降维为切入点,发挥粒计算理论处理海量、高维、不确定性数据的优势,研究面向大数据降维的粒计算理论与鱼群优化方法。研究大数据集的邻域粒化,二进制粒表示,粒的运算与约简,粒的不确定性度量,粒约简的大数据降维方法,鱼群优化的大数据降维方法,多粒度动态学习机制。研究旨在克服大数据集的维数灾难,降低大数据系统的复杂性,形成面向大数据的粒计算与鱼群优化降维理论体系,利用邻域关系粒化混合型大数据,运用二进制粒表示转化集合运算,利用基数排序提高粒运算性能,探讨大数据集中粒的度量与运算,利用鱼群优化算法提高大数据降维的并行处理能力,构建大数据降维的关键技术及支撑方法。本课题的研究将粒计算理论与群智能计算理论拓展到大数据降维领域,具有重要的理论研究与实际应用价值。
大数据具有量大、高维、多样、快速、价值密度低以及不确定性的特点,目前大数据信息分析与处理系统存在维数灾难、信息丰富但知识贫乏等关键科学问题。本项目采用粒计算理论与鱼群算法来降低大数据系统的复杂性,构建面向大数据系统的粒计算与鱼群算法降维模型。针对集合运算的低效,我们提出了一种二进制粒化的方法,给出了粒的三层结构,包括粒子、粒群与粒库,定义了二进制粒子及二进制粒子的运算,将传统的集合运算转化为二进制数的计算。针对传统粗糙集理论中不确定度量方法难以适用于邻域粗糙集模型的问题,我们引入信息熵的度量方法,提出了基于信息熵的邻域粗糙集不确定性度量方法。进一步研究了大数据分类系统中数据邻域粒化后粒子的结构、粒子的距离与粒子的度量方法,为粒分类器的设计提供了理论基础。针对大数据系统的不确定性特点,我们提出了一种粒化的模糊粗糙集模型,用于大数据系统的特征降维。针对高维、小样本及不确定性的基因表达数据,融合模糊可容忍性的邻域粒化技术与具有全局寻优能力的鱼群智能算法,提出基于邻域粒化与鱼群智能的降维模型,并应用于基因大数据,选择关键的基因组合。为了提高大数据系统的智能性,我们在邻域粒化、粒子不确定度量与粒子距离度量的基础上,提出了一种新型的集合方式的分类器:邻域粒分类器。针对传统分类器难以处理不确定性数据的问题,研究了样本单特征邻域粒化技术,构造了粒的向量形式,提出一种基于粒向量的K近邻分类方法。总之,我们从粒计算理论出发,结合群智能算法,提出了多种不确定性度量方法,定义了粒子的距离,研究了粒子的不确定度量方法,构建了粒子的向量形式,提出了基于粒计算理论与鱼群算法的降维模型,进一步增强系统的智能性,设计了多种粒分类器,取得了较好的分类效果,具有重要的理论研究与实际应用价值。主要研究成果有:发表了11篇SCI论文,多篇论文引用率较高;出版了1部学术著作;获批了2项发明专利;获得了省自然科学三等奖1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
面向高维数据的粒计算理论与方法
面向大数据的粒计算理论与方法
面向大数据的粒计算理论与方法
基于语义计算的高维复杂数据降维理论与实证研究