数据密集型计算在科学研究、商业智能、生物信息、环境监控和互联网服务等众多领域有着广泛的应用,其核心问题是数据的组织、处理与分析。与传统的数据管理问题相比,数据密集型计算环境下的数据所具有的海量、高速变化、分布、异构等复杂特征对数据管理方法和数据处理能力的可伸缩性提出了新的挑战。本项目希望通过研究提出高效的数据管理策略和算法以突破数据密集型计算环境所面临的数据可用性挑战,提出统一、开放的数据管理模型以支持数据密集型应用系统的透明开发,提出交互式和可视化的数据分析服务方法以推动数据密集型计算在相关领域的应用。本项目拟从数据管理模型、数据存储与索引、数据处理模式与优化、数据分析服务四个方面展开研究以构建数据密集型环境下数据管理的技术体系,并研制出相应的原型系统以验证研究成果的有效性。
伴随着“大数据”概念的出现以及传感网等新兴技术的快速发展,计算模式正在经历变迁。数据密集型计算环境下,数据所具有的海量、分布、异构、多变、高速等复杂特征对数据管理方法和数据处理能力提出了新的研究挑战。本项目的主要研究目标是系统地解决数据密集型计算环境下数据管理技术面临的基本挑战。我们在海量数据的存储和高效访问、数据可用性以及数据质量对数据分析的影响、多源异构数据的有效集成与管理、集群环境下的高可伸缩可容错的数据分析与应用等方向开展了广泛且深入的研究。构建了与数据特征相关的存储模型和高效的分布式索引;研究了大规模数据管理系统所需的数据错误的自动检测和修复相关技术以及实体识别、实体关系挖掘、数据清洗等数据融合和清洗技术;在面向批处理和图数据处理的数据处理模型优化技术,以及分布式事务与一致性技术上取得了一系列的突破;并设计了一系列面向不同应用数据类型以及应用场景的数据分析和优化技术。研究方向和内容符合数据管理技术的发展趋势和实际应用的实际需求,构建了适合以数据为中心计算环境的数据管理技术,在一个全新的范式内研究了数据存储与处理等相关问题,系统地应对了数据密集型应用带来的各种挑战。相关研究成果将为未来的数据处理特别是大数据处理的进一步研究与应用提供新的解决思路和技术支撑,具有重要的理论和实践意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
数据密集型计算环境下的空间场景相似性搜索研究
长尾延迟优化的在线数据密集型计算运行环境支撑技术研究
参数计算理论与技术在大数据环境下的应用
计算与存储融合的实时GIS数据组织管理方法