面向大规模分布式内存的非结构化数据管理系统关键技术研究

基本信息
批准号:61300003
项目类别:青年科学基金项目
资助金额:23.00
负责人:陈薇
学科分类:
依托单位:北京大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:杨冬青,王腾蛟,盖磊,闫秋玲,黄威靖,欧高炎,蒋达晟,付炳楠,武嘉怡
关键词:
大规模分布式内存非结构化数据管理云计算
结项摘要

The urgent needs and promising prospects of effective management and analysis of big data, which accounted for 90% proportion of digital world, have been shown in most fields. While achieved the ability of large-scale high-throughput data processing, existing cloud computing platform suffered from high system response time latency. Therefore, they are unable to meet the needs of online random access, interactive analysis and mining for massive data. From system design perspective, there are many theoretically unresolved issues on how to achieve effective management of unstructured massive data. It has attracted enthusiastic attention in both database research community and industry field whether such problem could be solved in large-scale distributed memory environment. This project will address the heterogeneous, associated, real-time features of unstructured data, study in-depth on large-scale distributed in-memory unstructured data storage model and distributed in-memory parallel data computation framework. Our goal is to design a large-scale distributed in-memory unstructured data management system, realize a low-latency high-throughput unstructured data access and service model based on distributed in-memory data storage. The achievements of this project will be implemented in "Large-Scale Unstructured Data Management and Analysis System (LUDAS)" developed by Peking University, and be verified in a real 100-nodes server cluster, PB-scale data environment.

非结构化数据在数字世界中所占的比例高达90%,对其有效管理和分析在各个领域都显示出迫切需求。现有云计算平台对非结构化数据高吞吐量的处理同时却伴有系统反应时间的高延迟,无法满足在线随机访问、交互式分析和挖掘的需求。如何实现对海量非结构化数据有效管理,在系统设计方面有许多理论上尚未解决的问题,能否在大规模分布式内存中实现,已引起数据库研究界和工业界的热切关注。本项目将针对非结构化数据异构、关联、实时的特点,深入研究面向大规模分布式内存的非结构化数据存储访问模型和分布式内存环境中并行数据计算处理框架。设计一种面向大规模分布式内存的非结构化数据管理系统,实现基于Distributed In-Memory Data Storage的非结化数据低延迟高吞吐量访问服务模式。本项目成果将在北大研制的"海量非结构化数据管理分析系统LUDAS"中实现,并在海量真实环境(100台服务器集群、PB级数据)验证。

项目摘要

随着社交网络、知识图谱等应用的广泛使用,产生了海量带有链接关系的属性数据,对这类非结构化数据的管理和分析具有重要的应用价值。现有通用云计算平台对非结构化数据高吞吐量的处理同时却伴有系统反应时间的高延迟,即使是基于内存的计算框架也难以满足此类特定类型非结构化数据的处理需求。如何实现对海量非结构化数据有效管理,在系统设计方面有许多理论上尚未解决的问题。同时,如何设计科学的“引导机制”实现海量非结构化数据上有效的分析和挖掘,对于解决实际应用问题同样具有重要价值。. 本课题针对海量带有链接关系的属性数据,深入研究面向大规模分布式内存的非结构化数据存储访问模型和分布式内存环境中并行数据计算处理框架。基于RDF模型,设计一种面向大规模分布式内存的非结构化数据管理系统,实现基于Distributed In-Memory Data Storage的非结化数据低延迟高吞吐量访问服务方式。在该系统中,提出了一种三表索引策略,用于存储海量RDF数据。并提出了一种基于内存的流水线迭代机制,可以实现高效处理SPARQL图模式查询中的迭代连接操作。并设计了基于可扩展的分布式计算框架Spark RDD的实现机制。同时,本课题还研究了分布式环境下并行计算集群的数据流优化问题,从CPU资源优化的角度提出了一种改进的数据流模式和高效的排序算法。最后,本课题以文本为代表的非结构化数据分析为核心,提出了一组社交网络数据及短文本的分析方法,包括讽刺检测、话题分析等。本课题成果均在海量真实环境下进行了验证,在国际著名学术会议发表多篇论文,并申请的国家发明专利和软件著作权。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
2

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
3

Wnt 信号通路在非小细胞肺癌中的研究进展

Wnt 信号通路在非小细胞肺癌中的研究进展

DOI:
发表时间:2016
4

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020
5

基于LBS的移动定向优惠券策略

基于LBS的移动定向优惠券策略

DOI:10.3969/j.issn.1005-2542.2020.02.009
发表时间:2020

陈薇的其他基金

批准号:11504195
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:61004082
批准年份:2010
资助金额:21.00
项目类别:青年科学基金项目
批准号:50878043
批准年份:2008
资助金额:35.00
项目类别:面上项目
批准号:59408001
批准年份:1994
资助金额:9.00
项目类别:青年科学基金项目
批准号:51478101
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:81802701
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:81260496
批准年份:2012
资助金额:49.00
项目类别:地区科学基金项目
批准号:50278014
批准年份:2002
资助金额:20.00
项目类别:面上项目
批准号:81202795
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:81603451
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:30340022
批准年份:2003
资助金额:15.00
项目类别:专项基金项目

相似国自然基金

1

非结构化数据管理若干关键技术研究

批准号:61073005
批准年份:2010
负责人:王建民
学科分类:F0202
资助金额:40.00
项目类别:面上项目
2

面向非易失主存的持久内存数据管理研究

批准号:61572468
批准年份:2015
负责人:陈世敏
学科分类:F0202
资助金额:65.00
项目类别:面上项目
3

面向非结构化文本的大规模事件信息抽取关键技术研究

批准号:61806201
批准年份:2018
负责人:陈玉博
学科分类:F0606
资助金额:26.00
项目类别:青年科学基金项目
4

分布式内存环境下的大图数据管理技术研究

批准号:61572119
批准年份:2015
负责人:袁野
学科分类:F0202
资助金额:66.00
项目类别:面上项目