Big Data concern multiple sources, heterogeneous, uncertain, large-scale, growing datasets. It is thus a critical issue to mine useful and meaningful information from the complex big data environment. In the past years, high-utility pattern mining (HUPM) concerns to mine profitable products from one, simple and discriminate database. In this project, we propose three novel frameworks as (1) an exchanged framework with four algorithms to mine high-utility patterns under multiple sources, multiple levels, and multiple dimensions (2) a fusion framework with three algorithms to mine high-utility patterns under heterogeneous environment (3) an integration framework with three algorithms to mine high-utility patterns under two different uncertainty models. We also design a platform and several criteria to evaluate the effectiveness and efficiency of the proposed frameworks. This project can greatly affect the current research of big data mining, especially to mine high-utility patterns from very complex and large scale data sources.
由于大数据环境下多源、异构、不确定性、大规模、动态信息资源等特征,如何在复杂的网络环境中挖掘出有用的信息,是目前待解决的重要问题之一。在过去的高效用信息挖掘研究中,主要是处理单一来源、简单型态和确定性数据库,并无法处理大数据环境下的应用。在本项目,我们将创新性地提出 (1) 基于多源、多阶与多维的环境下,提出局部、全局、多层与多维度的四种高效用信息挖掘理论与交换算法。(2) 基于异构环境下,提出泛化、模糊匹配与本体架构的三种高效用信息挖掘理论与融合算法。(3) 基于两种不确定性环境下,分别提出压缩树、链接链表结构与概率-效用列表结构的三种高效用信息挖掘理论与整合算法。本项目的研究除了突破现有研究范围与理论外,并搭建面向多源异构不确定等大数据的高效用信息挖掘验证平台。本项目的研究将对大数据处理问题和高效用信息挖掘的研究产生重大影响,对解决目前大型复杂数据处理与应用等问题起到积极推动作用。
海量数据的采集和使用已在科学研究、经济建设和社会生活领域产生积极的作用。对社会生活应用和许多学科而言,大数据意味着更严峻的挑战。大数据具有以下特征:海量、多源性、异构性、不确定性、动态性、多模态和复杂内联,这些特性对大数据处理与服务提出了巨大挑战。如何从大量的、看似杂乱无章的多源、异构、不确定数据中抽取出有用的信息成为数据驱动的建模方法的核心问题。本项目主要针对以下三种问题进行研究:(1) 针对大型复杂数据的多源性,研究面向多源数据的高效用信息挖掘技术。(2) 针对大型复杂数据的异构性,研究面向异构数据的高效用信息挖掘技术。(3) 针对大型复杂数据的不确定性,研究面向不确定性数据的高效用信息挖掘技术。..本人与课题组成员在自然基金委的支助下,已在国际重要期刊和学术会议上发表了大量相关领域的学术研究成果。针对项目内容,已发表了28篇国际顶级SCI期刊与6篇国际会议论文,并将相关算法原码发表在SPMF的开源项目里 (http://www.philippe-fournier-viger.com/spmf/)。本人已确切达到项目考核要求,这些成果足以证明课题组具有足够的能力和掌握了关键的技术,并可在未来针对本项目的延伸课题进行更深入的研究和讨论。..本项目主要的科学意义为:1. 提高高效用信息挖掘的理论研究水平:尽管目前基于高效用信息挖掘的技术方法较多,但尚无涉及基于多源、异构、不确定等复杂数据的高效用信息挖掘方法的研究,本项目的研究创新性地引入多源、异构数据挖掘理论、不确定性理论到高效用信息挖掘中,可从全新的研究角度来提高高效用信息挖掘的理论研究水平,充实其研究范围。2. 提高大型复杂数据处理的理论研究水平:大型复杂数据处理在目前的研究领域上已有许多相关的理论基础,但涉及高效用资讯的问题目前尚少研究。本项目中涉及到多源异构数据集成与优化的思想可以为其它数据挖掘、机器学习方法提供借鉴和理论支持。因此,本项目的研究可以丰富大型复杂数据处理理论研究范围,同时可以扩展高效用信息挖掘的研究范围,提高其研究的广度与深度。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于多模态信息特征融合的犯罪预测算法研究
面向云工作流安全的任务调度方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于粒计算的多源异构动态数据挖掘关键技术研究
多源异构数据中的攻击关联模式挖掘方法研究
基于多源异构大数据的风电机组本征挖掘与状态异常辨识研究
结合情境感知的移动互联网高维、多源、异构用户数据挖掘方法研究