当前数据库系统的可扩展性较差,至多支持512个节点;计算机各组件发展失衡,磁盘寻址、带宽的发展远落后于CPU速度、内存容量等的发展。针对上述现状,提出基于低耦合无共享系统、按列存储的海量数据管理查询优化技术,可有效提升系统可扩展性、优化磁盘访问效率。本项目旨在研究并实现按列存储数据的管理、查询及优化。重点研究:1)分布式文件系统下按列存储数据的自动投影、分块技术,批量、流式数据插入算法;2)基于二部图的低网络开销、高并行度的星型、链式、多路表连接算法,并以此实现多维数据的高效查询、聚合操作;3)基于分布无关密度估计的查询分析计划优化策略;4)提供具有实际应用的原型系统,并进行有效测试。本项目的研究内容适应云计算系统的发展需求,具有广泛的应用前景和经济效益。申请人在数据库和分布式计算方面有较多积累,所提出的研究方案切实可行,能够保证本项目的顺利完成。
本课题研究按列存储数据管理系统的查询优化,该技术在商务智能、海量数据分析等方面均由较多应用。本项目主要存在两大挑战。一是40多年来计算机各组件间发展极为不平衡,原有数据处理系统架构无法满足当前硬件的发展,需要提出一种全新的架构。二是数据量的爆炸式增长,使大规模并行数据处理成为解决大数据问题的必然选择,如何充分发挥该类系统的性能已成为主要挑战。在项目执行期间,课题组围绕着项目设计的关键问题,设计了整套解决方案,包括数据按列存储、基本操作(并行连接、链式连接、星形连接、大表连接等)、上层计算广告应用,部分成果已经达到本领域的国际级水平。所取得主要学术成果包括:(1)共发表论文、译著、专利、软件著作权等18篇(项),其中1篇被SCI收录,12篇被EI收录,超出预定目标;(2)一篇论文发表于国际数据库顶级会议ICDE之上,一篇论文发表于国际期刊《information Sciences》之上,该期刊5年的平均影响因子为3.005。(3)两篇文章分别获得WISA’2011的优秀论文奖,DASFAA‘2011 Best Demo Award Runner-Up。(4)基于本项目研究的按列存储而开发的上层应用——互联网在线广告,获得的了教育部科学技术进步奖二等奖,申请人为第10完成人。(5)培养硕士研究生5人,其中1人已毕业,4人在读,培养博士研究生1人,即将毕业。课题组严格按照基金委的要求使用经费。
{{i.achievement_title}}
数据更新时间:2023-05-31
钢筋混凝土带翼缘剪力墙破坏机理研究
气载放射性碘采样测量方法研究进展
基于非线性接触刚度的铰接/锁紧结构动力学建模方法
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
秦巴山区地质灾害发育规律研究——以镇巴县幅为例
云计算环境下键值存储系统查询优化技术研究
群智感知系统中多维众包数据建模、存储索引与查询优化研究
轨迹数据的分布式存储与关键查询优化
基于RDF自适应存储的SPARQL查询优化技术研究