The classification and clustering of big data are useful to well understand and manage big data, so as to efficiently utilize these big data. Therefore, mining/analysis is an important step in the lifecycle of big data. This project studies models and methods of mining big data based on cognitive computation. It will focus on addressing three important issues, feature extraction and missing data imputation of big data, cognitive computation for big data, and multilevel mining of big data. The research plan of this project includes, preprocessing methods for extracting features and parameters from big data and missing data imputation; strategies and models for statistical cognitive computation and dynamic cognitive computation, mining of big-variety data and multilevel pattern discovery; key technologies for upgrading algorithms of data classification and clustering, and new methods of cost-sensitive classification and kNN learning. The expected outcomes are to achieve breakthrough results on cognitive computation, mining of variety data and kNN learning. These achievements will be beneficial for China industries, such as healthcare, marketing, fraud detection, image retrieval and Web information utilization when mining their big data.
对大数据分类与聚类处理的目的是为了更好地理解和管理大数据,以便有效地利用这些大数据。所以,分析与挖掘是大数据生命周期中最重要的一步。以认知计算为基础,本项目研究大数据挖掘的模型和方法,计划研究大数据特征提取与缺失填充、大数据认知策略和多层次大数据挖掘3个科学问题。主要研究内容包括,特征与参数提取、参数计算和缺失填充等大数据理解或预处理方法;统计认知理解与动态认知、多源大数据挖掘和多粒度/多层次模式挖掘等策略和模型;数据分类与聚类、代价敏感分类和kNN分类等的升级算法与改良技术。期望在认知计算、多样性数据挖掘和最近邻学习等方面取得突破性研究成果,可用于解决我国工业界,如医疗保健、营销、欺诈检测、图片检索、网络信息利用等的大数据处理需求。
大数据智能计算要面对的主要问题包括无法求解、求解成本高、找不到最优解等。针对这些问题,本项目发现数据及属性的特征规律,创新数据分类的模式化、互补性理论,寻求大规模、高维度数据分类的线性解与最优解。在以下两个方面取得重要结果:KNN分类模式化方法和数据级与属性级的结构信息递归互补模型。主要成果包括发表论文47篇,获得广西自然科学奖一等奖1项(2020年)、国际会议最佳论文1篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
伴有轻度认知障碍的帕金森病~(18)F-FDG PET的统计参数图分析
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于粒计算的海量数据挖掘理论与高效算法研究
基于认知计算和信息挖掘的多波段夜视图像融合技术
基于云计算的海量数据挖掘关键技术研究
基于云计算的海量数据挖掘