Rare categories in big data have great potential values since the discovery of them often brings new important findings and knowledge. However, a rare category has only a few data examples and often hides in a sub-feature space of big data, resulting in many difficulties and challenges for the mining of rare categories. Nonetheless, the existing research take no account of sub-feature space and also require substantial computation when they conduct rare-category data mining, both of which limit their usability on big data. Hence, the research of this project focuses on big data environment, aims at effectively and efficiently mining out rare categories in very-large high-dimensional data sets, and tries to propose rare-category data mining algorithms that match the actual application characteristics and requirements, including big data-oriented rare-category detection and classification algorithms. To ensure the usability, efficiency and performance of these algorithms, the key scientific problems in this research, such as how to reasonably decompose big data, how to effectively find out the search space for rare-category classification, and how to design dimension reduction techniques for rare categories specially, will be finely solved. Meanwhile, a display platform integrated the main research results of this project will be built, and work as a basic platform to help extend the research results to real-world applications.
大数据中的稀有类蕴藏着巨大的潜在价值,挖掘出它们常会带来重要的新发现、新知识。但是稀有类仅有少量数据样本且常隐匿在大数据子维度空间中,使其挖掘工作具有较大困难和挑战。而现有稀有类数据挖掘研究往往忽略大数据中稀有类的子维度空间特性,且其算法计算代价较大,因而限制了它们在大数据上的可用性。因此,本项目将以大数据环境为研究背景,以准确、高效地挖掘出海量高维数据集中稀有类为核心目标,系统研究符合实际应用特点和应用需要的稀有类数据挖掘算法,包括面向大数据的稀有类检测算法和分类算法,解决如何合理分解大数据、如何有效获取稀有类分类查找空间、如何设计针对稀有类的降维技术等关键科学问题,保证所提方法的可用性、效率及性能。同时,拟建设一个集成本项目主要研究成果的稀有类数据挖掘算法展示平台,以作为今后研究成果向实际应用推广的基础平台。
大数据中的稀有类蕴藏着巨大的潜在价值,但其数据样本却常常难以被发现,因此如何快速准确地从大数据中挖掘出这些稀有类数据样本是一个较大的挑战。本项目围绕稀有类数据挖掘技术展开了深入的探索,重点研究了稀有类检测技术、稀有类分类技术以及图数据、众包数据中稀有类数据挖掘。项目组达到并超出了预期的研究目标。共培养/毕业相关方向的博士生3名、硕士生5名,获国家奖学金1人次、校级优秀研究生表彰2人次;在国际顶级/重要学术会议AAAI 2019、VLDB 2018、DASFAA 2018、DASFAA 2017、APWeb 2016、DEXA 2016,以及国内外权威学术期刊Knowledge and Information Systems、Computer Journal、Journal of Intelligent Information Systems、软件学报上发表/录用高水平研究论文12篇,其中SCI检索3篇,EI检索9篇,CCF(中国计算机学会)推荐的A类会议长文1篇、A类会议Demo论文1篇、B类会议或期刊论文5篇、C类会议论文3篇、国家一级学报论文2篇;申报国家发明专利5项,其中2项已授权;搭建了一个稀有类数据挖掘算法展示平台;同时,部分研究成果已在华中地区最大的座席外包专业服务机构——武汉新光电网科信息技术有限公司得到了较为成功的落地应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于全模式全聚焦方法的裂纹超声成像定量检测
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
基于图卷积网络的归纳式微博谣言检测新方法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多维数据与空间数据集成环境下数据挖掘模型的研究
大数据环境下基于同步原理的数据流挖掘算法研究
大数据环境下高维数据流挖掘算法及应用研究
大数据环境下的土石坝病险挖掘和诊断