非结构化数据管理若干关键技术研究

基本信息
批准号:61073005
项目类别:面上项目
资助金额:40.00
负责人:王建民
学科分类:
依托单位:清华大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:王朝坤,闻立杰,谌卫军,刘英博,朱妤晴,杨和东,丁建伟,田浩,刘璋
关键词:
非结构化数据管理统一数据模型应用验证非结构数据查询与访问机制类SQL语言
结项摘要

本课题面向网络化应用对非结构化数据管理需求,重点突破非结构化数据一体化管理核心技术,研制非结构化数据管理系统,并在电信服务领域进行应用验证。借鉴非结构化数据管理相关理论和方法,重点突破非结构化数据管理统一数据模型、可扩展体系结构、查询访问机制(包括存储、索引、并发控制、查询处理和优化、一致性管理)等关键技术,开发新型支持关键字检索和近似查询的类SQL语言,并在云计算(低成本计算机群)平台上,研制开放、可靠、高效、可扩展的非结构化数据管理原型系统,支持多种非结构化数据的一体化管理和访问。本项目研制的非结构化数据管理系统将在电信服务领域(3G互动社区)进行应用验证。

项目摘要

不同类型的非结构化数据通常具有不同的模式,而且具有不同的处理操作,同时非结构化数据还具有海量、动态、多样等大数据特点,其管理面临着巨大挑战。.三年来,项目负责人及本项目团队根据《资助项目计划书》,围绕非结构化数据管理系统关键技术进行了攻关,提出了一种开放式、多层次、组件化、可组装的体系结构,设计了一种类SQL的非结构化数据统一查询语言LaSQL,给出了非结构化数据分布式索引系列方法,提出了一种用户可定制的副本一致性形式化方法与实现机制,开发非结构化数据管理系统原型LaUDMS,并在工业大数据和互联网金融领域进行了应用验证。.非结构化数据管理系统包括数据存储、特征管理和语义服务三个层次。其中,LaUDStore是对数据存储层的具体实现,统一支撑结构化和非结构化数据的存储;特征管理通过对高维向量和关键字两种典型特征支持来实现,分别基于高维索引检索模块和Katta系统,涵盖特征抽取、高维索引检索和文本索引抽取三个模块;语义服务主要通过RDF来实现。.定义了非结构化数据统一查询语言LaSQL,LaSQL是一种标准查询语言,为La Structure Query Language的简称。LaSQL语言标准以Cassandra Query Language v2.0与Hive Query Language为基础、参照了UnQL和SQLMM进行设计,涵盖了非结构化数据管理的基本操作需求,即基于键值KV模型与文件存储访问的需求。.针对多种非结构化数据的并行查询处理框架特点,实现了Hybrid Spill Tree算法,其核心是基于减少回溯的高维索引结构,其特点是检索效率快,而缺点则是只能搜索近似KNN,但可通过参数的调整使得Hybrid Spill Tree的近似KNN与精确KNN接近。.由于不同的非结构化数据有对于存储访问延迟有不同的需求,课题组提出了一种基于数据访问访问过程解构与执行过程重组的方法,利用可扩展云存储的延迟与一致性间的权衡关系,为不同非结构化数据访问提供了可在指定延迟中返回的非结构化数据存储接口。.将过程模型和过程实例看作一种特殊的非结构化数据,提出了2个过程模型相似性度量,提出了多种模型快速索引结构和1个过程挖掘算法快速挖掘框架。.在VLDB会议、IEEE TSC等会议和期刊上发表相关学术论文12篇,获得相关中国发明专利3项,申请1项软件著作权。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

农超对接模式中利益分配问题研究

农超对接模式中利益分配问题研究

DOI:10.16517/j.cnki.cn12-1034/f.2015.03.030
发表时间:2015
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019

王建民的其他基金

批准号:11173023
批准年份:2011
资助金额:86.00
项目类别:面上项目
批准号:19803002
批准年份:1998
资助金额:11.00
项目类别:青年科学基金项目
批准号:31470126
批准年份:2014
资助金额:30.00
项目类别:面上项目
批准号:60403039
批准年份:2004
资助金额:23.00
项目类别:青年科学基金项目
批准号:90718010
批准年份:2007
资助金额:50.00
项目类别:重大研究计划
批准号:60377028
批准年份:2003
资助金额:25.00
项目类别:面上项目
批准号:60473077
批准年份:2004
资助金额:22.00
项目类别:面上项目
批准号:61073132
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:30271343
批准年份:2002
资助金额:19.00
项目类别:面上项目
批准号:10776038
批准年份:2007
资助金额:36.00
项目类别:联合基金项目
批准号:71473001
批准年份:2014
资助金额:60.00
项目类别:面上项目
批准号:30470770
批准年份:2004
资助金额:21.00
项目类别:面上项目
批准号:81671945
批准年份:2016
资助金额:52.00
项目类别:面上项目
批准号:31300154
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:11233003
批准年份:2012
资助金额:340.00
项目类别:重点项目
批准号:81270119
批准年份:2012
资助金额:75.00
项目类别:面上项目
批准号:10733010
批准年份:2007
资助金额:230.00
项目类别:重点项目
批准号:61050010
批准年份:2010
资助金额:50.00
项目类别:专项基金项目
批准号:60373011
批准年份:2003
资助金额:21.00
项目类别:面上项目
批准号:51878360
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:11143010
批准年份:2011
资助金额:18.00
项目类别:专项基金项目

相似国自然基金

1

模糊XML数据管理若干关键技术研究

批准号:60873010
批准年份:2008
负责人:马宗民
学科分类:F0202
资助金额:31.00
项目类别:面上项目
2

面向大规模分布式内存的非结构化数据管理系统关键技术研究

批准号:61300003
批准年份:2013
负责人:陈薇
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
3

面向医疗健康大数据的半结构化数据管理关键技术研究

批准号:61702086
批准年份:2017
负责人:毕鑫
学科分类:F0202
资助金额:24.00
项目类别:青年科学基金项目
4

结构化P2P网络中多媒体数据管理关键技术研究

批准号:60873011
批准年份:2008
负责人:王国仁
学科分类:F0202
资助金额:33.00
项目类别:面上项目