Data as an important strategic resource for the development of society and economy, has been from the "shortage", "adequacy" into "helplessness" stage. The capacity of massive data analysis has become an important part of the comprehensive national power, we have entered the era of data analysis, the symbol of which is "Big Data". Massive uncertain data stream is the typical representative of the "Big Data", which has the characteristics of large scale, uncertainty and time-sensitivity. Skyline query is one of the important means of data analysis and information extraction. The goal of this project is to realize the efficiency、practicability and flexibility of skyline query processing based on the large-scale resource. In this project, firstly, the model of distributed parallel skyline query processing for massive uncertain data stream is studied; secondly, based on this model, the theory and key technologies of distributed parallel skyline query processing for massive uncertain data stream are studied from three aspects, which are distributed parallel skyline query processing、distributed parallel extended skyline query processing and distributed parallel n-of-N skyline query processing. In particular, we will put much attention on the adaptive partition of sliding window、elastic extensible resource scheduling、fast progressive parallel skyline query computation、parallel interval skyline query processing、parallel k-dominant skyline query computation、parallel approximate skyline query processing、collaborative stabbing query, etc. The research achievements of this project will provide technical support for improving the efficiency of massive data analysis.
数据作为社会经济发展的重要战略资源,已从匮乏、充足进入到"无能为力"的阶段,海量数据分析处理能力已成为国家综合国力的重要组成部分,我们已进入以"大数据"为标志的数据分析时代。海量不确定数据流是"大数据"典型代表,具有规模化、不确定性和时效性等特点,Skyline查询是数据分析处理的重要技术手段之一。 本项目以高效性、实用性和灵活性为目标,利用多级规模化资源的强大计算能力,以分布并行查询处理模型为核心,从分布并行Skyline查询处理、分布并行Skyline扩展查询处理、分布并行n-of-N Skyline查询处理等方面研究海量不确定数据流的分布并行Skyline查询处理的理论、方法和关键技术,在自适应滑动窗口划分、弹性扩展资源调度、渐进式并行查询处理、并行区间查询处理、并行k-支配查询处理、并行近似查询处理、高效协同探测查询等方面取得突破,为提高海量数据分析处理效率提供理论和技术支撑。
海量不确定数据流的规模化、不确定性和时效性等特点对Skyline查询提出了新的挑战。本项目以Skyline查询处理的高效性、实用性和灵活性为目标,充分利用多级规模化资源的强大计算能力,以不确定数据流的分布并行Skyline查询处理模型为核心,从自适应快速渐进式的分布并行Skyline查询处理、高效实用的分布并行Skyline扩展查询处理、高效精确的分布并行n-of-N Skyline查询处理等三个方面研究海量不确定数据流的分布并行Skyline查询处理的理论、方法和关键技术,在全分布并行计算模型、自适应滑动窗口划分、弹性扩展资源调度、渐进式并行Skyline查询处理、Skyline查询更新维护、容错并行Skyline查询处理、并行区间Skyline查询处理、并行k-支配Skyline查询处理、并行近似Skyline查询处理、高效协同探测查询、精确区间边界计算、n-of-N Skyline查询更新维护及其优化等方面取得了一系列创新性研究成果,圆满完成了研究任务,实现了预期目标。基于上述研究成果,本项目在IEEE Transactions、INFOCOM等国内外核心期刊和学术会议上发表学术论文36篇,其中,在国际期刊发表论文17篇,在国际会议发表论文14篇,在国家一级期刊发表论文5篇,17篇论文被SCI收录,19篇论文被EI收录,14篇论文被ISTP收录。相关研究成果授权国家发明专利4项。培养博士4名、硕士10名。. 本项目的研究成果已用于国家安管中心的“面向互联网信息获取与计算的公共信息处理基础设施”的建设方案,通过对数据流量的灵活调度和计算资源的按需聚合,有效提高流处理的实时性和资源利用率,显著提升投资效益比。本研究成果已用于国家863重大项目“中国云”的“云服务和管理平台共性基础核心软件与系统”的技术方案,为实现大规模数据的在线分析处理提供技术支持,初步应用在网易公司和亿赞普公司。 . 本项目的研究成果对于深刻认识大数据的本质特征,突破大数据深度分析处理与信息提取的核心关键技术,促进大数据应用的快速发展,具有重要的科学意义。本项目的研究成果对于最大限度挖掘“大数据”的潜在价值,提升我国政府在大数据时代的信息获取与分析能力,抓住开发利用“大数据”资源的主动权,有效掌握“数据主权”,将巨大机遇变为现实,有力确保国家安全,具有重要的战略意义和广阔的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
钢筋混凝土带翼缘剪力墙破坏机理研究
气载放射性碘采样测量方法研究进展
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
秦巴山区地质灾害发育规律研究——以镇巴县幅为例
不确定数据流的分布并行Skyline查询技术研究
分布式不确定skyline查询处理关键技术研究
异构并行环境下不确定Skyline查询及变体问题的研究
时序大数据流下的海量规则并行处理研究