本课题面向网络化应用对非结构化数据管理需求,重点突破非结构化数据一体化管理核心技术,研制非结构化数据管理系统,并在电信服务领域进行应用验证。借鉴非结构化数据管理相关理论和方法,重点突破非结构化数据管理统一数据模型、可扩展体系结构、查询访问机制(包括存储、索引、并发控制、查询处理和优化、一致性管理)等关键技术,开发新型支持关键字检索和近似查询的类SQL语言,并在云计算(低成本计算机群)平台上,研制开放、可靠、高效、可扩展的非结构化数据管理原型系统,支持多种非结构化数据的一体化管理和访问。本项目研制的非结构化数据管理系统将在电信服务领域(3G互动社区)进行应用验证。
不同类型的非结构化数据通常具有不同的模式,而且具有不同的处理操作,同时非结构化数据还具有海量、动态、多样等大数据特点,其管理面临着巨大挑战。.三年来,项目负责人及本项目团队根据《资助项目计划书》,围绕非结构化数据管理系统关键技术进行了攻关,提出了一种开放式、多层次、组件化、可组装的体系结构,设计了一种类SQL的非结构化数据统一查询语言LaSQL,给出了非结构化数据分布式索引系列方法,提出了一种用户可定制的副本一致性形式化方法与实现机制,开发非结构化数据管理系统原型LaUDMS,并在工业大数据和互联网金融领域进行了应用验证。.非结构化数据管理系统包括数据存储、特征管理和语义服务三个层次。其中,LaUDStore是对数据存储层的具体实现,统一支撑结构化和非结构化数据的存储;特征管理通过对高维向量和关键字两种典型特征支持来实现,分别基于高维索引检索模块和Katta系统,涵盖特征抽取、高维索引检索和文本索引抽取三个模块;语义服务主要通过RDF来实现。.定义了非结构化数据统一查询语言LaSQL,LaSQL是一种标准查询语言,为La Structure Query Language的简称。LaSQL语言标准以Cassandra Query Language v2.0与Hive Query Language为基础、参照了UnQL和SQLMM进行设计,涵盖了非结构化数据管理的基本操作需求,即基于键值KV模型与文件存储访问的需求。.针对多种非结构化数据的并行查询处理框架特点,实现了Hybrid Spill Tree算法,其核心是基于减少回溯的高维索引结构,其特点是检索效率快,而缺点则是只能搜索近似KNN,但可通过参数的调整使得Hybrid Spill Tree的近似KNN与精确KNN接近。.由于不同的非结构化数据有对于存储访问延迟有不同的需求,课题组提出了一种基于数据访问访问过程解构与执行过程重组的方法,利用可扩展云存储的延迟与一致性间的权衡关系,为不同非结构化数据访问提供了可在指定延迟中返回的非结构化数据存储接口。.将过程模型和过程实例看作一种特殊的非结构化数据,提出了2个过程模型相似性度量,提出了多种模型快速索引结构和1个过程挖掘算法快速挖掘框架。.在VLDB会议、IEEE TSC等会议和期刊上发表相关学术论文12篇,获得相关中国发明专利3项,申请1项软件著作权。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
农超对接模式中利益分配问题研究
硬件木马:关键问题研究进展及新动向
低轨卫星通信信道分配策略
模糊XML数据管理若干关键技术研究
面向大规模分布式内存的非结构化数据管理系统关键技术研究
面向医疗健康大数据的半结构化数据管理关键技术研究
结构化P2P网络中多媒体数据管理关键技术研究