面向大规模分布式内存的非结构化数据管理系统关键技术研究

基本信息

批准号：61300003

项目类别：青年科学基金项目

资助金额：23.00

负责人：陈薇

学科分类：

依托单位：北京大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：杨冬青,王腾蛟,盖磊,闫秋玲,黄威靖,欧高炎,蒋达晟,付炳楠,武嘉怡

关键词：

大规模分布式内存非结构化数据管理云计算

结项摘要

The urgent needs and promising prospects of effective management and analysis of big data, which accounted for 90% proportion of digital world, have been shown in most fields. While achieved the ability of large-scale high-throughput data processing, existing cloud computing platform suffered from high system response time latency. Therefore, they are unable to meet the needs of online random access, interactive analysis and mining for massive data. From system design perspective, there are many theoretically unresolved issues on how to achieve effective management of unstructured massive data. It has attracted enthusiastic attention in both database research community and industry field whether such problem could be solved in large-scale distributed memory environment. This project will address the heterogeneous, associated, real-time features of unstructured data, study in-depth on large-scale distributed in-memory unstructured data storage model and distributed in-memory parallel data computation framework. Our goal is to design a large-scale distributed in-memory unstructured data management system, realize a low-latency high-throughput unstructured data access and service model based on distributed in-memory data storage. The achievements of this project will be implemented in "Large-Scale Unstructured Data Management and Analysis System (LUDAS)" developed by Peking University, and be verified in a real 100-nodes server cluster, PB-scale data environment.

非结构化数据在数字世界中所占的比例高达90%，对其有效管理和分析在各个领域都显示出迫切需求。现有云计算平台对非结构化数据高吞吐量的处理同时却伴有系统反应时间的高延迟，无法满足在线随机访问、交互式分析和挖掘的需求。如何实现对海量非结构化数据有效管理，在系统设计方面有许多理论上尚未解决的问题，能否在大规模分布式内存中实现，已引起数据库研究界和工业界的热切关注。本项目将针对非结构化数据异构、关联、实时的特点，深入研究面向大规模分布式内存的非结构化数据存储访问模型和分布式内存环境中并行数据计算处理框架。设计一种面向大规模分布式内存的非结构化数据管理系统，实现基于Distributed In-Memory Data Storage的非结化数据低延迟高吞吐量访问服务模式。本项目成果将在北大研制的"海量非结构化数据管理分析系统LUDAS"中实现，并在海量真实环境（100台服务器集群、PB级数据）验证。

项目摘要

随着社交网络、知识图谱等应用的广泛使用，产生了海量带有链接关系的属性数据，对这类非结构化数据的管理和分析具有重要的应用价值。现有通用云计算平台对非结构化数据高吞吐量的处理同时却伴有系统反应时间的高延迟，即使是基于内存的计算框架也难以满足此类特定类型非结构化数据的处理需求。如何实现对海量非结构化数据有效管理，在系统设计方面有许多理论上尚未解决的问题。同时，如何设计科学的“引导机制”实现海量非结构化数据上有效的分析和挖掘，对于解决实际应用问题同样具有重要价值。. 本课题针对海量带有链接关系的属性数据，深入研究面向大规模分布式内存的非结构化数据存储访问模型和分布式内存环境中并行数据计算处理框架。基于RDF模型，设计一种面向大规模分布式内存的非结构化数据管理系统，实现基于Distributed In-Memory Data Storage的非结化数据低延迟高吞吐量访问服务方式。在该系统中，提出了一种三表索引策略，用于存储海量RDF数据。并提出了一种基于内存的流水线迭代机制，可以实现高效处理SPARQL图模式查询中的迭代连接操作。并设计了基于可扩展的分布式计算框架Spark RDD的实现机制。同时，本课题还研究了分布式环境下并行计算集群的数据流优化问题，从CPU资源优化的角度提出了一种改进的数据流模式和高效的排序算法。最后，本课题以文本为代表的非结构化数据分析为核心，提出了一组社交网络数据及短文本的分析方法，包括讽刺检测、话题分析等。本课题成果均在海量真实环境下进行了验证，在国际著名学术会议发表多篇论文，并申请的国家发明专利和软件著作权。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2020

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

DOI：10.7498/aps.70.20202116

发表时间：2021

DOI：

发表时间：2020

陈薇的其他基金

批准号：11504195

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：61004082

批准年份：2010

资助金额：21.00

项目类别：青年科学基金项目

批准号：50878043

批准年份：2008

资助金额：35.00

项目类别：面上项目

批准号：59408001

批准年份：1994

资助金额：9.00

项目类别：青年科学基金项目

批准号：51478101

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：81802701

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：81260496

批准年份：2012

资助金额：49.00

项目类别：地区科学基金项目

批准号：50278014

批准年份：2002

资助金额：20.00

项目类别：面上项目

批准号：81202795

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：81603451

批准年份：2016

资助金额：17.00

项目类别：青年科学基金项目

批准号：30340022

批准年份：2003

资助金额：15.00

项目类别：专项基金项目

相似国自然基金

非结构化数据管理若干关键技术研究

批准号：61073005

批准年份：2010

负责人：王建民

学科分类：F0202

资助金额：40.00

项目类别：面上项目

面向非易失主存的持久内存数据管理研究

批准号：61572468

批准年份：2015

负责人：陈世敏

学科分类：F0202

资助金额：65.00

项目类别：面上项目

面向非结构化文本的大规模事件信息抽取关键技术研究

批准号：61806201

批准年份：2018

负责人：陈玉博

学科分类：F0606

资助金额：26.00

项目类别：青年科学基金项目

分布式内存环境下的大图数据管理技术研究

批准号：61572119

批准年份：2015

负责人：袁野

学科分类：F0202

资助金额：66.00

项目类别：面上项目

面向大规模分布式内存的非结构化数据管理系统关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

智能煤矿建设路线与工程实践

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

非牛顿流体剪切稀化特性的分子动力学模拟

强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制

陈薇的其他基金

具有SU(N)(N>=2)自旋对称性的一维费米子系统的研究

大型带式输送系统张力控制关键问题的研究

中国古代建筑材料应用发展史（史前至先秦）

长江中下游沿江景观的理论及再开发研究

江南古典园林与城市水系的关联研究

超级lncRNA SUCLG2-AS1促进鼻咽癌侵袭及转移的机制研究

氧化异阿扑菲衍生物对阿尔茨海默病转Aβ42基因果蝇模型的神经保护作用及其机制研究

元明清时期运河沿线城市与建筑研究

基于“肾生髓”理论应用fMRI技术探讨补肾法治疗Alzheimer病的机理

构建中医药循证临床实践指南规范和标准化的方法学研究

抗SARS病毒人源抗体的研究

相似国自然基金