XML data has been widely applied in web data exchanging and storage. With the exponentially increasing amount of XML data, traditional XML data management technologies are unable to meet the requirements of massive XML data processing applications. Due to the high performance of distributed computing and low cost of hardware, the cloud computing technologies have pioneered the massive data storage and query processing technologies. However, semi-structured data are unable to storage and process in the cloud directly and effectively. This project focuses on massive XML data management technologies, conducting a deep research into the technology system for massive XML data. The purpose of this project is to solve the problems of applying XML management technologies into distributed massive environment in the cloud, including distributed XML data storage model building in large datacenters, distributed index, distributed Keyword query processing, distributed Twig query Processing, distributed XPath and XQuery processing of massive XML data, etc. We will design and implement a prototype sysyem of massive XML data management to verify the correctness and validation of the proposed research technologies in this project. The research achievement, which has important theoretical and practical significance, will be powerful supports and solutions to the services and applications of massive XML data.
XML已被广泛应用于Web数据交换和存储领域,数据量呈指数级增长,传统XML数据管理技术已无法满足海量XML数据管理的要求。云计算技术在处理大规模数据集中具有性能和成本优势,已成为海量数据存储和查询处理最合适的技术体系,但利用云计算技术无法有效地处理具有半结构化特点的XML数据。本项目围绕海量XML数据管理所面临的问题,针对云计算环境下海量XML数据存储技术、索引技术和查询处理技术展开研究。解决云计算环境下海量XML数据的数据存储模型和分布式存储技术;进而研究海量XML数据的分布式索引构建和维护技术;研究海量XML数据的关键字查询、Twig查询和XPath/XQuery等查询处理技术。设计实现一个基于云计算环境的海量XML数据管理原型系统,来验证研究成果的正确性和有效性。研究成果将为海量XML数据管理应用提供有力的理论支持和解决方案,具有重要的理论和实践意义。
海量XML数据已被广泛应用于互联网领域;云计算技术已成为海量规模数据存储和查询处理最合适的技术体系,将海量XML数据管理与云计算技术相结合成为趋势。管理海量规模的XML数据引入云计算技术体系,导致传统XML数据存储策略和处理算法无法直接高效应用,项目的主要研究目标是针对云环境下海量规模的半结构化XML数据,从海量XML数据的存储模型、分布式数据分片与放置策略、海量XML数据的管理模型、海量XML数据查询处理的分布式执行策略等方面,研究海量XML数据存储与查询处理的相关理论与技术,并提出有效的解决方案。因此,本项目研究了大规模XML文档的分布式存储策略、分布式XML文档的节点编码方案、分布式关键字查询处理与优化技术;研究了XML文档任意分片方法、XML文档的分布式Twig查询处理与优化技术;在XML文档分类处理方面,研究了XML文档表达模型与ELM改进算法、云环境下的XML文档分类问题、社交媒体流中的XML文档分类问题、不确定定XML文档分类问题等。经过项目组成员为期四年的共同努力,本项目在理论研究、学术交流和人才培养等方面取得了大量成果。在理论研究方面,共获授权发明专利4项,发表XML数据管理领域学术论文17篇,包括《JCST》、《WWWJ》、《NEUROCOMRUTING》、《MPE》等学术期刊,以及APWEB、EML、BIGCOM等国际学术会议。上述17篇论文被SCI收录9篇,被EI收录12篇,此外还有2篇SCI源录用待发表论文,在学术交流方面,项目组成员和硕博士研究生四年来共18人次参加了重要的学术会议,与相关领域的专家和同行进行了广泛而深入的交流。在人才培养方面,协助培养博士研究生4人,3人已顺利毕业,1人留校东北大学任教;协助培养硕士研究生4人,独立培养硕士研究生7人,已顺利毕业,充实到国内知名的IT产业公司。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
云计算环境下基于图模型的海量RDF数据管理关键技术研究
云计算环境下海量RDF数据管理系统核心技术研究
基于云计算的海量网络数据管理与搜索技术
模糊XML数据管理若干关键技术研究