In big data environment, close relationships are among multisource and heterogeneous data. Graphs, as a kind of fundamental structure expressing data relationships, have a wide application in many fields such as social network analysis, brain network analysis, and knowledge graph analysis. Compared with other types of data, big graphs have characters of large scales, complex structures, and dynamic changes. These characters make the management and analysis of big graphs face three main challenges: heterogeneous storage and partition, efficient calculation, and lightweight execution guarantee. Existing techniques of graph management and analysis cannot solve these three challenge well, and cannot meet the requirement of current big graph applications. Thus, this project focuses on the basic theories and key techniques of big graph management and analysis, including: (1) the model and storage of big graphs (physic models, partition and distribution, and compressed storage); (2) techniques of big graph queries and optimizations (matching query, information retrieval, and distance query); (3) techniques on big graph mining and analysis (community detection, graph mining, clustering and classification); (4) execution guarantees of big graph tasks (error-tolerant techniques, task scheduling, and load balance). This project meets the requirement of the real world and technique development, which has a wide application in the future.
在大数据时代海量多源异构的数据间存在着紧密的关联性,图作为表示数据之间关系的基本结构在社交网络分析、人脑网络分析、知识图谱分析等领域有着广泛应用。与其它数据类型相比,大图数据具有规模宏大、结构复杂、动态变化等特点,这些独有的特点使管理和分析大图数据面临三大挑战:异构的存储和划分、高效的计算和轻量级的执行保证。目前的图数据管理和分析技术不能很好地解决这三个挑战,无法满足当前大图数据应用的需求。为此,本项目将重点研究大图数据管理与分析的基础理论和关键技术,包括1) 大图数据的模型和存储技术(物理模型、划分和布局、压缩存储);2) 大图数据的查询处理与优化技术(匹配查询、信息检索、距离查询);3) 大图数据的挖掘和分析技术(社区发现、图挖掘、聚类和分类);4) 大图数据任务的执行保证(容错技术、任务调度、负载平衡)。本项目的研究符合现实应用需求和技术发展趋势,具有广阔的应用前景。
在大数据时代海量多源异构的数据间存在着紧密的关联性,图作为表示数据之间关系的基本结构在社交网络分析、人脑网络分析、知识图谱分析等领域有着广泛应用。与其它数据类型相比,大图数据具有规模宏大、结构复杂、动态变化等特点,这些独有的特点使管理和分析大图数据面临三大挑战:异构的存储和划分、高效的计算和轻量级的执行保证。目前的图数据管理和分析技术不能很好地解决这三个挑战,无法满足当前大图数据应用的需求。为此,本项目重点研究了大图数据管理与分析的基础理论和关键技术,包括大图数据模型与存储技术、大图数据查询处理与优化技术、大图数据的挖掘和分析技术、分布式系统的执行保障技术四个方面。并且实现了提出的大图数据查询处理和分析算法、大图数据存储和分割算法以及大图数据各种任务执行保障的策略,最后设计与实现了大图数据管理与分析原型系统。本项目实施过程中,项目组已在VLDB Journal、IEEE TKDE、等国际权威期和本领域重要的国际会议(SIGMOD、VLDB、ICDE等)上发表(含已录用)论文110篇,其中CCF A类论文46篇。培养毕业研究生20余名,李长升获批优秀青年科学基金,张志威入选青年千人计划,李荣华当选青年长江学者,成雨蓉荣获CCF优博提名,冯凯宇获批海外优青基金。申请公开国家发明专利12项。此外,项目组通过积极参与相关领域主流国际会议、邀请国外专家访问等方式,与国外同行进行了深入的学术交流与合作。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
多图数据管理关键技术研究
条件概率图数据管理关键技术研究
海量位置数据管理的基础理论与关键技术
分布式内存环境下的大图数据管理技术研究