基于数据空间的海量数据处理方法与关键技术

基本信息
批准号:61272185
项目类别:面上项目
资助金额:82.00
负责人:王念滨
学科分类:
依托单位:哈尔滨工程大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:王红滨,张万松,祝官文,王红卫,付少红,李铁柱,刘丹,梁英飞,李先蒙
关键词:
数据空间海量数据语义缓存负载均衡
结项摘要

Large-scale data processing has a wide range of research value and application prospect in many fields,such as scientific exploration, environmental protection, network applications, business intelligence, bio-technology, and so on. In the massive data processing, data is its cornerstone and the core issue is the organization management and analysis methods of data. Compared with traditional data processing, massive data has large-capacity and multi-format characteristics, so it is faced with new challenges for us to manage and deal with data. In this project research, our target is to build an efficient and reliable large-scale data processing platform. Then we mainly study and discuss massive data processing from four aspects in detail. To begin with, we focus on the research of some key technologies in the no-shared cluster environment, such as high-performance data processing, large-capacity, multi-format data organization and management; Second, we investigate the massive data organization and management methods in the data space environment, present a model for organizing and managing multi-format data , integrate the structured, unstructured, semi-structured data, build a unified data organizational model; Third, we study an efficient indexing strategy in the data space environment, explore a massive data load balancing strategy in order to improve the performance of the system; Last, we research some key technologies in the data space environment, for example, the semantic caching and the improvement of system responsiveness. In brief, our research achievements will can not only provide a good theoretical basis for massive data processing but also have a broad application prospects and significant research value.

海量数据处理在科学探索、环境保护、网络应用、商业智能、生物计算等领域有着广泛的研究价值和应用前景。海量数据处理是围绕数据展开的,其核心问题是数据的组织管理与分析方法。与传统的数据处理方法比较,目前海量数据具有的大容量、多格式特征对数据管理方法和数据处理能力提出了新的挑战。本项目研究以构建高效、可靠的大规模数据处理平台为目标,重点研究在无共享群集环境中大容量、多格式数据组织管理,高性能数据查询处理等关键技术。研究数据空间环境下海量数据的组织管理方法,提出多格式数据的组织管理模型,集成结构化、非结构化、半结构化数据,构建统一数据组织模型;研究数据空间环境下的高效索引策略,探讨数据空间环境下的海量数据负载均衡策略以提高系统的性能;研究数据空间环境下的语义缓存技术,提高系统响应能力。研究成果将为海量数据处理提供良好的理论基础,具有广阔的应用前景和重要的理论研究价值。

项目摘要

研究计划要点主要有:数据空间组织模型、数据空间索引机制、数据负载均衡机制和策略、数据缓存机制和策略以及查询优化等方面,其中数据空间组织模型和数据空间索引机制是本项目的研究核心。.数据空间组织模型方面,研究提出了一种上下文感知的语义关联网络模型。首先将上下文信息与数据源的结构化信息、半结构化信息及非结构化信息封装成上下文感知的解释对象;然后,通过一组约束组件(如上下文约束、概率和名称等)扩展传统的二元语义关系,从而表达丰富语义;此外,引入一组推理规则,以便可以从已有的语义关系派生出隐含的语义关系;通过在公共数据集DBLP进行实验,验证了所提出的模型的有效性和可行性。.索引机制方面,提出了一种基于iMeMex数据模型的数据空间索引方法。针对异构数据的查询多样性,本文提出使用扩展的倒排列表方法来索引异构数据为多种类型的查询处理提供支持。例如,使用改进的倒排列表方法来索引资源视图中的属性信息和层次信息,同时可以高效的处理关键字查询、路径查询和谓词查询提供支持。.针对负载均衡,提出了一种基于查询意图的数据空间预取方法。提出了一种利用查询日志的数据空间预取方法,该方法主要利用查询日志和SOM聚类技术,进行识别用户查询意图,并根据查询意图预取查询结果,来解决预取效果差问题。同时,基于索引研究工作,提出了一种基于负载均衡和查询日志的数据空间多维索引方法。.针对数据查询优化,提出了一种面向数据空间的top-k近似子图查询方法。首先形式化地定义了数据空间中top-k近似子图查询问题,在图管理理论的基础上,提出了一种新型的数据空间查询语言(GQL);其次,从顶点距离邻近性和边标签分布性角度出发,提出了一种基于邻域结构的图相似性度量方法;再次,结合研究的索引技术,设计了一种基于邻域结构的匹配顶点剪枝算法,从而剪枝掉大量无希望的候选匹配顶点;之后引入了选择度概念,并提出了一种面向数据空间的top-k近似子图搜索算法;最后,通过在真实数据集上的大量实验表明,该方法在查询效果、查询效率和扩展性方面明显优于已有方法。项目研究工作按照任务书要求完成,就研究工作的各个部分,发表了相关文章.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

王念滨的其他基金

批准号:61772152
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:60973028
批准年份:2009
资助金额:30.00
项目类别:面上项目

相似国自然基金

1

面向FAST的海量数据处理关键技术研究

批准号:U1531246
批准年份:2015
负责人:朱明
学科分类:A1503
资助金额:200.00
项目类别:联合基金项目
2

临近空间SAR信息建模与数据处理关键技术研究

批准号:61072141
批准年份:2010
负责人:宋建社
学科分类:F0113
资助金额:32.00
项目类别:面上项目
3

面向海量数据处理的多核学习算法及其并行优化方法研究

批准号:61005045
批准年份:2010
负责人:胡明清
学科分类:F0603
资助金额:20.00
项目类别:青年科学基金项目
4

海量数据处理中面向任务加速的数据调度策略研究

批准号:61300033
批准年份:2013
负责人:任祖杰
学科分类:F0204
资助金额:27.00
项目类别:青年科学基金项目