基于多源异构不确定数据的高效用信息挖掘的研究

基本信息
批准号:61503092
项目类别:青年科学基金项目
资助金额:20.00
负责人:林浚玮
学科分类:
依托单位:哈尔滨工业大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:甘文生,刘乾坤,杨璐,李霆
关键词:
异构数据多源数据不确定数据大数据高效用信息
结项摘要

Big Data concern multiple sources, heterogeneous, uncertain, large-scale, growing datasets. It is thus a critical issue to mine useful and meaningful information from the complex big data environment. In the past years, high-utility pattern mining (HUPM) concerns to mine profitable products from one, simple and discriminate database. In this project, we propose three novel frameworks as (1) an exchanged framework with four algorithms to mine high-utility patterns under multiple sources, multiple levels, and multiple dimensions (2) a fusion framework with three algorithms to mine high-utility patterns under heterogeneous environment (3) an integration framework with three algorithms to mine high-utility patterns under two different uncertainty models. We also design a platform and several criteria to evaluate the effectiveness and efficiency of the proposed frameworks. This project can greatly affect the current research of big data mining, especially to mine high-utility patterns from very complex and large scale data sources.

由于大数据环境下多源、异构、不确定性、大规模、动态信息资源等特征,如何在复杂的网络环境中挖掘出有用的信息,是目前待解决的重要问题之一。在过去的高效用信息挖掘研究中,主要是处理单一来源、简单型态和确定性数据库,并无法处理大数据环境下的应用。在本项目,我们将创新性地提出 (1) 基于多源、多阶与多维的环境下,提出局部、全局、多层与多维度的四种高效用信息挖掘理论与交换算法。(2) 基于异构环境下,提出泛化、模糊匹配与本体架构的三种高效用信息挖掘理论与融合算法。(3) 基于两种不确定性环境下,分别提出压缩树、链接链表结构与概率-效用列表结构的三种高效用信息挖掘理论与整合算法。本项目的研究除了突破现有研究范围与理论外,并搭建面向多源异构不确定等大数据的高效用信息挖掘验证平台。本项目的研究将对大数据处理问题和高效用信息挖掘的研究产生重大影响,对解决目前大型复杂数据处理与应用等问题起到积极推动作用。

项目摘要

海量数据的采集和使用已在科学研究、经济建设和社会生活领域产生积极的作用。对社会生活应用和许多学科而言,大数据意味着更严峻的挑战。大数据具有以下特征:海量、多源性、异构性、不确定性、动态性、多模态和复杂内联,这些特性对大数据处理与服务提出了巨大挑战。如何从大量的、看似杂乱无章的多源、异构、不确定数据中抽取出有用的信息成为数据驱动的建模方法的核心问题。本项目主要针对以下三种问题进行研究:(1) 针对大型复杂数据的多源性,研究面向多源数据的高效用信息挖掘技术。(2) 针对大型复杂数据的异构性,研究面向异构数据的高效用信息挖掘技术。(3) 针对大型复杂数据的不确定性,研究面向不确定性数据的高效用信息挖掘技术。..本人与课题组成员在自然基金委的支助下,已在国际重要期刊和学术会议上发表了大量相关领域的学术研究成果。针对项目内容,已发表了28篇国际顶级SCI期刊与6篇国际会议论文,并将相关算法原码发表在SPMF的开源项目里 (http://www.philippe-fournier-viger.com/spmf/)。本人已确切达到项目考核要求,这些成果足以证明课题组具有足够的能力和掌握了关键的技术,并可在未来针对本项目的延伸课题进行更深入的研究和讨论。..本项目主要的科学意义为:1. 提高高效用信息挖掘的理论研究水平:尽管目前基于高效用信息挖掘的技术方法较多,但尚无涉及基于多源、异构、不确定等复杂数据的高效用信息挖掘方法的研究,本项目的研究创新性地引入多源、异构数据挖掘理论、不确定性理论到高效用信息挖掘中,可从全新的研究角度来提高高效用信息挖掘的理论研究水平,充实其研究范围。2. 提高大型复杂数据处理的理论研究水平:大型复杂数据处理在目前的研究领域上已有许多相关的理论基础,但涉及高效用资讯的问题目前尚少研究。本项目中涉及到多源异构数据集成与优化的思想可以为其它数据挖掘、机器学习方法提供借鉴和理论支持。因此,本项目的研究可以丰富大型复杂数据处理理论研究范围,同时可以扩展高效用信息挖掘的研究范围,提高其研究的广度与深度。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

林浚玮的其他基金

相似国自然基金

1

基于粒计算的多源异构动态数据挖掘关键技术研究

批准号:61573292
批准年份:2015
负责人:李天瑞
学科分类:F0607
资助金额:64.00
项目类别:面上项目
2

多源异构数据中的攻击关联模式挖掘方法研究

批准号:61802081
批准年份:2018
负责人:申国伟
学科分类:F0205
资助金额:27.00
项目类别:青年科学基金项目
3

基于多源异构大数据的风电机组本征挖掘与状态异常辨识研究

批准号:61572237
批准年份:2015
负责人:吴定会
学科分类:F0207
资助金额:65.00
项目类别:面上项目
4

结合情境感知的移动互联网高维、多源、异构用户数据挖掘方法研究

批准号:61402373
批准年份:2014
负责人:杨涛
学科分类:F0205
资助金额:25.00
项目类别:青年科学基金项目