非结构化数据管理若干关键技术研究

基本信息

批准号：61073005

项目类别：面上项目

资助金额：40.00

负责人：王建民

学科分类：

依托单位：清华大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：王朝坤,闻立杰,谌卫军,刘英博,朱妤晴,杨和东,丁建伟,田浩,刘璋

关键词：

非结构化数据管理统一数据模型应用验证非结构数据查询与访问机制类SQL语言

结项摘要

本课题面向网络化应用对非结构化数据管理需求，重点突破非结构化数据一体化管理核心技术，研制非结构化数据管理系统，并在电信服务领域进行应用验证。借鉴非结构化数据管理相关理论和方法，重点突破非结构化数据管理统一数据模型、可扩展体系结构、查询访问机制(包括存储、索引、并发控制、查询处理和优化、一致性管理)等关键技术，开发新型支持关键字检索和近似查询的类SQL语言，并在云计算（低成本计算机群）平台上，研制开放、可靠、高效、可扩展的非结构化数据管理原型系统，支持多种非结构化数据的一体化管理和访问。本项目研制的非结构化数据管理系统将在电信服务领域（3G互动社区）进行应用验证。

项目摘要

不同类型的非结构化数据通常具有不同的模式，而且具有不同的处理操作，同时非结构化数据还具有海量、动态、多样等大数据特点，其管理面临着巨大挑战。.三年来，项目负责人及本项目团队根据《资助项目计划书》，围绕非结构化数据管理系统关键技术进行了攻关，提出了一种开放式、多层次、组件化、可组装的体系结构，设计了一种类SQL的非结构化数据统一查询语言LaSQL，给出了非结构化数据分布式索引系列方法，提出了一种用户可定制的副本一致性形式化方法与实现机制，开发非结构化数据管理系统原型LaUDMS，并在工业大数据和互联网金融领域进行了应用验证。.非结构化数据管理系统包括数据存储、特征管理和语义服务三个层次。其中，LaUDStore是对数据存储层的具体实现，统一支撑结构化和非结构化数据的存储；特征管理通过对高维向量和关键字两种典型特征支持来实现，分别基于高维索引检索模块和Katta系统，涵盖特征抽取、高维索引检索和文本索引抽取三个模块；语义服务主要通过RDF来实现。.定义了非结构化数据统一查询语言LaSQL，LaSQL是一种标准查询语言，为La Structure Query Language的简称。LaSQL语言标准以Cassandra Query Language v2.0与Hive Query Language为基础、参照了UnQL和SQLMM进行设计，涵盖了非结构化数据管理的基本操作需求，即基于键值KV模型与文件存储访问的需求。.针对多种非结构化数据的并行查询处理框架特点，实现了Hybrid Spill Tree算法，其核心是基于减少回溯的高维索引结构，其特点是检索效率快，而缺点则是只能搜索近似KNN，但可通过参数的调整使得Hybrid Spill Tree的近似KNN与精确KNN接近。.由于不同的非结构化数据有对于存储访问延迟有不同的需求，课题组提出了一种基于数据访问访问过程解构与执行过程重组的方法，利用可扩展云存储的延迟与一致性间的权衡关系，为不同非结构化数据访问提供了可在指定延迟中返回的非结构化数据存储接口。.将过程模型和过程实例看作一种特殊的非结构化数据，提出了2个过程模型相似性度量，提出了多种模型快速索引结构和1个过程挖掘算法快速挖掘框架。.在VLDB会议、IEEE TSC等会议和期刊上发表相关学术论文12篇，获得相关中国发明专利3项，申请1项软件著作权。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.13197/j.eeev.2019.05.95.fuwq.009

发表时间：2019

DOI：

发表时间：2020

DOI：10.13343/j.cnki.wsxb.20200479

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

王建民的其他基金

批准号：11173023

批准年份：2011

资助金额：86.00

项目类别：面上项目

批准号：19803002

批准年份：1998

资助金额：11.00

项目类别：青年科学基金项目

批准号：31470126

批准年份：2014

资助金额：30.00

项目类别：面上项目

批准号：60403039

批准年份：2004

资助金额：23.00

项目类别：青年科学基金项目

批准号：90718010

批准年份：2007

资助金额：50.00

项目类别：重大研究计划

批准号：60377028

批准年份：2003

资助金额：25.00

项目类别：面上项目

批准号：60473077

批准年份：2004

资助金额：22.00

项目类别：面上项目

批准号：61073132

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：30271343

批准年份：2002

资助金额：19.00

项目类别：面上项目

批准号：10776038

批准年份：2007

资助金额：36.00

项目类别：联合基金项目

批准号：71473001

批准年份：2014

资助金额：60.00

项目类别：面上项目

批准号：30470770

批准年份：2004

资助金额：21.00

项目类别：面上项目

批准号：81671945

批准年份：2016

资助金额：52.00

项目类别：面上项目

批准号：31300154

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：11233003

批准年份：2012

资助金额：340.00

项目类别：重点项目

批准号：81270119

批准年份：2012

资助金额：75.00

项目类别：面上项目

批准号：10733010

批准年份：2007

资助金额：230.00

项目类别：重点项目

批准号：61050010

批准年份：2010

资助金额：50.00

项目类别：专项基金项目

批准号：60373011

批准年份：2003

资助金额：21.00

项目类别：面上项目

批准号：51878360

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：11143010

批准年份：2011

资助金额：18.00

项目类别：专项基金项目

相似国自然基金

模糊XML数据管理若干关键技术研究

批准号：60873010

批准年份：2008

负责人：马宗民

学科分类：F0202

资助金额：31.00

项目类别：面上项目

面向大规模分布式内存的非结构化数据管理系统关键技术研究

批准号：61300003

批准年份：2013

负责人：陈薇

学科分类：F0202

资助金额：23.00

项目类别：青年科学基金项目

面向医疗健康大数据的半结构化数据管理关键技术研究

批准号：61702086

批准年份：2017

负责人：毕鑫

学科分类：F0202

资助金额：24.00

项目类别：青年科学基金项目

结构化P2P网络中多媒体数据管理关键技术研究

批准号：60873011

批准年份：2008

负责人：王国仁

学科分类：F0202

资助金额：33.00

项目类别：面上项目

非结构化数据管理若干关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于被动变阻尼装置高层结构风振控制效果对比分析

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

猪链球菌生物被膜形成的耐药机制

基于改进LinkNet的寒旱区遥感图像河流识别方法

王建民的其他基金

高红移种子黑洞的形成与演化

吸积盘整体结构与类星体光度函数的研究

鸡柔嫩艾美耳球虫MIC2转基因玉米表达体系构建及其免疫效果研究

移动图形计算中的若干关键问题研究与应用

基于软件水印的JAVA可信运行环境关键技术研究

新型卫星激光通信捕获技术研究

水印关系数据库关键技术研究

交互数字电视的自感知用户界面模型研究与应用

急性肺损伤后KGF-KGFR信号通路的损害及基因修复的研究

破片、冲击波在生物体内的响应过程及损伤机制研究

区域承接产业低碳发展绩效评价与驱动模式创新

EMT发生时KGFR配体结合特异性的变化规律及相关信号通路的研究

ESRP在急性肺损伤后肺泡上皮细胞修复中的作用及机制研究

ADP-核糖基化因子在肠道病毒71型复制中的作用

黑洞活动与寄主星系相互作用

FGFR2-Ⅲb选择性剪切的开关分子ESRP在肺纤维化中的作用及其调控机制研究

超大质量黑洞环境及其演化

自然科学基金项目辅助评审关键技术与系统研发

基于过程度量和挖掘的适应性工作流管理系统关键技术研究

陶粒混凝土-高强混凝土复合叠浇粘结滑移机理及设计研究

北京秋季学校：活动星系核的物理过程与演化

相似国自然基金