大数据环境下的流数据连续查询与优化技术研究

基本信息
批准号:61602353
项目类别:青年科学基金项目
资助金额:20.00
负责人:解庆
学科分类:
依托单位:武汉理工大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:张响亮,鲍芝峰,Kudamaduwage Pubudu Nuwanthika Jayasena,陈明,孙悦清,朱阁
关键词:
连续查询查询优化流数据序列匹配流式数据/流式数据处理数据流管理系统
结项摘要

As the increasing volume of streaming data in current information era, how to perform efficient and optimized continuous query on streaming data has become one of the most significant problems for Data Stream Management System(DSMS). In the Big Data environment, the existing continuous query solution, including the approximate representation and similarity measure techniques, cannot meet the requirements of data variety and velocity, and current DSMSs fail to theoretically improve the techniques of continuous query on streaming data. Due to this situation, this proposal aims on the data characteristics in Big Data environment, and based on the theoretical analysis, design efficient framework of continuous query on streaming data, and perform query optimization for massive data stream applications. The key points of this proposal include: (1) Research of customized approximate representation and similarity measure based on actual data stream; (2) Research of the framework of efficient continuous query technique based on approximate representations; (3) Research of multiple query optimization in massive data streams environment based on cost model and queries' structure. The outcomes of this proposal will theoretically propose the practical continuous query solutions as well as relevant techniques on streaming data, and provide the theoretical bases and key technique support for streaming data processing in Big Data environment.

在流数据不断增长的信息时代,如何对流数据进行高效、优化的连续查询已经成为流数据管理系统中最基本也是最重要的问题之一。在当今大数据环境下,现有的连续查询方案,包括数据的近似表达和相似度计算等技术,已经不能适应数据的多样性及高速性等特征,而现有的流数据管理系统并没有从理论上对流数据连续查询的技术实现突破。基于此现状,本项目针对大数据环境下的流数据特点,从理论出发,设计高效的流数据连续查询框架,并在大规模数据流应用中对查询方案进行优化处理。项目的研究重点将包括:(1)研究基于实际数据流的定制化数据近似表达方式及相似度计算方法;(2)研究基于数据近似表达方式的高效的连续查询技术框架;(3)在大规模数据流环境中研究基于开销模型和查询任务结构的多查询任务优化技术。本项目的研究结果将从理论上提出实用性的流数据连续查询框架和相关技术,并为大数据环境下的流数据处理提供理论基础和关键技术支持。

项目摘要

针对目前大数据背景下无处不在的流数据环境,本项目关注以连续查询为核心的流数据高效管理与应用问题,从流数据表达、查询框架设计、应用方案优化等角度入手,研究基于实际数据流的定制化数据近似表达方式及相似度计算方法;研究基于数据近似表达方式的高效的连续查询技术框架;在大规模数据流环境中研究基于开销模型和查询任务结构的多查询任务优化技术。基于项目组的研究平台,本项目以数字出版和知识服务为应用领域,探求连续查询方案在大规模流媒体平台中的优化和成效。.针对以上研究内容,本项目的主要研究成果如下:.(1)为误差限定下的流数据分段线性近似表达问题提出了线性复杂度的最优化解决方案,并提供了理论上的完备证明;.(2)面向知识服务领域开展流数据处理研究,将流数据连续查询框架应用于知识服务中的资源推荐问题,提出了一种基于资源标签信息的交互式个性化动态推荐算法,利用标签信息对资源进行层次化组织,并提出了基于标签信息熵的优化交互方案,该方案以连续查询方式提供标签关键字与用户进行交互,同时动态更新查询结果(即推荐列表),有效地提高了资源推荐的效率;.(3)针对流式推荐中的兴趣转移问题,提出一种用户兴趣转移感知的流式推荐算法,采取增量更新方法实时更新模型参数,同时结合遗忘机制有效区分用户临时偏好与长期偏好,有效提升流式环境下推荐算法的自适应性;.(4)分析了云环境下的多模式媒体大数据平台的构架及资源调度办法,提出了一种包括服务层、平台层和架构层的三层数据存储和分析框架,设计了高效的数据格式转换方案,并提供灵活的多媒体数据读写接口,以支持大规模多媒体数据分析。.本项目的研究结果从理论上设计实用的流数据连续查询相关技术,将其应用与知识服务领域,为大数据环境下的流数据管理和应用提供了理论基础和关键技术支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
5

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019

解庆的其他基金

相似国自然基金

1

大数据环境下的数据查询隐私保护技术研究

批准号:61472131
批准年份:2014
负责人:秦拯
学科分类:F0205
资助金额:82.00
项目类别:面上项目
2

云环境下大规模动态图数据查询处理与优化技术研究

批准号:61472169
批准年份:2014
负责人:宋宝燕
学科分类:F0202
资助金额:82.00
项目类别:面上项目
3

云计算环境下医学RDF大数据的分布式查询处理与优化技术研究

批准号:61363018
批准年份:2013
负责人:杜方
学科分类:F0202
资助金额:45.00
项目类别:地区科学基金项目
4

数据广播环境下路网中连续(反向)k-近邻查询处理研究

批准号:61173049
批准年份:2011
负责人:李国徽
学科分类:F0202
资助金额:55.00
项目类别:面上项目