大数据环境下稀有类数据挖掘研究

基本信息
批准号:61502347
项目类别:青年科学基金项目
资助金额:21.00
负责人:黄浩
学科分类:
依托单位:武汉大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:黄浩,王淞,张平,王梁,王敏,熊胜超
关键词:
分类数据挖掘检测稀有类大数据
结项摘要

Rare categories in big data have great potential values since the discovery of them often brings new important findings and knowledge. However, a rare category has only a few data examples and often hides in a sub-feature space of big data, resulting in many difficulties and challenges for the mining of rare categories. Nonetheless, the existing research take no account of sub-feature space and also require substantial computation when they conduct rare-category data mining, both of which limit their usability on big data. Hence, the research of this project focuses on big data environment, aims at effectively and efficiently mining out rare categories in very-large high-dimensional data sets, and tries to propose rare-category data mining algorithms that match the actual application characteristics and requirements, including big data-oriented rare-category detection and classification algorithms. To ensure the usability, efficiency and performance of these algorithms, the key scientific problems in this research, such as how to reasonably decompose big data, how to effectively find out the search space for rare-category classification, and how to design dimension reduction techniques for rare categories specially, will be finely solved. Meanwhile, a display platform integrated the main research results of this project will be built, and work as a basic platform to help extend the research results to real-world applications.

大数据中的稀有类蕴藏着巨大的潜在价值,挖掘出它们常会带来重要的新发现、新知识。但是稀有类仅有少量数据样本且常隐匿在大数据子维度空间中,使其挖掘工作具有较大困难和挑战。而现有稀有类数据挖掘研究往往忽略大数据中稀有类的子维度空间特性,且其算法计算代价较大,因而限制了它们在大数据上的可用性。因此,本项目将以大数据环境为研究背景,以准确、高效地挖掘出海量高维数据集中稀有类为核心目标,系统研究符合实际应用特点和应用需要的稀有类数据挖掘算法,包括面向大数据的稀有类检测算法和分类算法,解决如何合理分解大数据、如何有效获取稀有类分类查找空间、如何设计针对稀有类的降维技术等关键科学问题,保证所提方法的可用性、效率及性能。同时,拟建设一个集成本项目主要研究成果的稀有类数据挖掘算法展示平台,以作为今后研究成果向实际应用推广的基础平台。

项目摘要

大数据中的稀有类蕴藏着巨大的潜在价值,但其数据样本却常常难以被发现,因此如何快速准确地从大数据中挖掘出这些稀有类数据样本是一个较大的挑战。本项目围绕稀有类数据挖掘技术展开了深入的探索,重点研究了稀有类检测技术、稀有类分类技术以及图数据、众包数据中稀有类数据挖掘。项目组达到并超出了预期的研究目标。共培养/毕业相关方向的博士生3名、硕士生5名,获国家奖学金1人次、校级优秀研究生表彰2人次;在国际顶级/重要学术会议AAAI 2019、VLDB 2018、DASFAA 2018、DASFAA 2017、APWeb 2016、DEXA 2016,以及国内外权威学术期刊Knowledge and Information Systems、Computer Journal、Journal of Intelligent Information Systems、软件学报上发表/录用高水平研究论文12篇,其中SCI检索3篇,EI检索9篇,CCF(中国计算机学会)推荐的A类会议长文1篇、A类会议Demo论文1篇、B类会议或期刊论文5篇、C类会议论文3篇、国家一级学报论文2篇;申报国家发明专利5项,其中2项已授权;搭建了一个稀有类数据挖掘算法展示平台;同时,部分研究成果已在华中地区最大的座席外包专业服务机构——武汉新光电网科信息技术有限公司得到了较为成功的落地应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
3

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
4

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

黄浩的其他基金

批准号:40706042
批准年份:2007
资助金额:18.00
项目类别:青年科学基金项目
批准号:41905019
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:81173099
批准年份:2011
资助金额:40.00
项目类别:面上项目
批准号:81660595
批准年份:2016
资助金额:36.50
项目类别:地区科学基金项目
批准号:41872036
批准年份:2018
资助金额:65.00
项目类别:面上项目
批准号:81803493
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:60273077
批准年份:2002
资助金额:22.00
项目类别:面上项目
批准号:81902582
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:61663044
批准年份:2016
资助金额:42.00
项目类别:地区科学基金项目
批准号:31900703
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:61365005
批准年份:2013
资助金额:45.00
项目类别:地区科学基金项目
批准号:51408081
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:60965002
批准年份:2009
资助金额:24.00
项目类别:地区科学基金项目
批准号:81760247
批准年份:2017
资助金额:34.00
项目类别:地区科学基金项目
批准号:41102007
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

多维数据与空间数据集成环境下数据挖掘模型的研究

批准号:70540005
批准年份:2005
负责人:陈燕
学科分类:G0114
资助金额:6.00
项目类别:专项基金项目
2

大数据环境下基于同步原理的数据流挖掘算法研究

批准号:61403062
批准年份:2014
负责人:邵俊明
学科分类:F0603
资助金额:25.00
项目类别:青年科学基金项目
3

大数据环境下高维数据流挖掘算法及应用研究

批准号:61370200
批准年份:2013
负责人:冯林
学科分类:F0205
资助金额:75.00
项目类别:面上项目
4

大数据环境下的土石坝病险挖掘和诊断

批准号:51609149
批准年份:2016
负责人:杨阳
学科分类:E0906
资助金额:20.00
项目类别:青年科学基金项目