The urgent needs and promising prospects of effective management and analysis of big data, which accounted for 90% proportion of digital world, have been shown in most fields. While achieved the ability of large-scale high-throughput data processing, existing cloud computing platform suffered from high system response time latency. Therefore, they are unable to meet the needs of online random access, interactive analysis and mining for massive data. From system design perspective, there are many theoretically unresolved issues on how to achieve effective management of unstructured massive data. It has attracted enthusiastic attention in both database research community and industry field whether such problem could be solved in large-scale distributed memory environment. This project will address the heterogeneous, associated, real-time features of unstructured data, study in-depth on large-scale distributed in-memory unstructured data storage model and distributed in-memory parallel data computation framework. Our goal is to design a large-scale distributed in-memory unstructured data management system, realize a low-latency high-throughput unstructured data access and service model based on distributed in-memory data storage. The achievements of this project will be implemented in "Large-Scale Unstructured Data Management and Analysis System (LUDAS)" developed by Peking University, and be verified in a real 100-nodes server cluster, PB-scale data environment.
非结构化数据在数字世界中所占的比例高达90%,对其有效管理和分析在各个领域都显示出迫切需求。现有云计算平台对非结构化数据高吞吐量的处理同时却伴有系统反应时间的高延迟,无法满足在线随机访问、交互式分析和挖掘的需求。如何实现对海量非结构化数据有效管理,在系统设计方面有许多理论上尚未解决的问题,能否在大规模分布式内存中实现,已引起数据库研究界和工业界的热切关注。本项目将针对非结构化数据异构、关联、实时的特点,深入研究面向大规模分布式内存的非结构化数据存储访问模型和分布式内存环境中并行数据计算处理框架。设计一种面向大规模分布式内存的非结构化数据管理系统,实现基于Distributed In-Memory Data Storage的非结化数据低延迟高吞吐量访问服务模式。本项目成果将在北大研制的"海量非结构化数据管理分析系统LUDAS"中实现,并在海量真实环境(100台服务器集群、PB级数据)验证。
随着社交网络、知识图谱等应用的广泛使用,产生了海量带有链接关系的属性数据,对这类非结构化数据的管理和分析具有重要的应用价值。现有通用云计算平台对非结构化数据高吞吐量的处理同时却伴有系统反应时间的高延迟,即使是基于内存的计算框架也难以满足此类特定类型非结构化数据的处理需求。如何实现对海量非结构化数据有效管理,在系统设计方面有许多理论上尚未解决的问题。同时,如何设计科学的“引导机制”实现海量非结构化数据上有效的分析和挖掘,对于解决实际应用问题同样具有重要价值。. 本课题针对海量带有链接关系的属性数据,深入研究面向大规模分布式内存的非结构化数据存储访问模型和分布式内存环境中并行数据计算处理框架。基于RDF模型,设计一种面向大规模分布式内存的非结构化数据管理系统,实现基于Distributed In-Memory Data Storage的非结化数据低延迟高吞吐量访问服务方式。在该系统中,提出了一种三表索引策略,用于存储海量RDF数据。并提出了一种基于内存的流水线迭代机制,可以实现高效处理SPARQL图模式查询中的迭代连接操作。并设计了基于可扩展的分布式计算框架Spark RDD的实现机制。同时,本课题还研究了分布式环境下并行计算集群的数据流优化问题,从CPU资源优化的角度提出了一种改进的数据流模式和高效的排序算法。最后,本课题以文本为代表的非结构化数据分析为核心,提出了一组社交网络数据及短文本的分析方法,包括讽刺检测、话题分析等。本课题成果均在海量真实环境下进行了验证,在国际著名学术会议发表多篇论文,并申请的国家发明专利和软件著作权。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
Wnt 信号通路在非小细胞肺癌中的研究进展
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
基于LBS的移动定向优惠券策略
非结构化数据管理若干关键技术研究
面向非易失主存的持久内存数据管理研究
面向非结构化文本的大规模事件信息抽取关键技术研究
分布式内存环境下的大图数据管理技术研究