Classic database engine architecture works well in single node mode or a small cluster. However, it is found that the same architecture cannot provide a satisfied performance in large-scale database cluster. The architecture is not salable enough and cannot provide an optimal query plan since its query plan is based on imprecise cost estimation. The problem is because 1) more and more parameters can affect the performance of database, as the volume of data increases and the structure of database becomes complex; 2) Recent database algorithms are designed for specific applications. They follow the rule "one size does not fit all". To address the above problems, we propose using deep learning techniques to make the database query engine more smart. In particular, we construct a new distributed indexing framework integrated with a neural indexing tuning model, a knowledge-based query plan generator and an intelligent database tuning tool. These modules are integrated with existing database modules and hence, they can seamless improve the performance of existing database systems. We will build a prototype system based on Alibaba's PolarDB system, one of the largest distributed database system running on Alibaba Cloud.
传统的“索引+代价模型+查询计划生成”框架在单机或者小型分布式环境下应用的很好,但在大规模分布式集群数据库上出现扩展性差、代价估算不准、查询计划探索空间过大等问题。造成这一情况的主要原因有两个:1. 随着数据量的剧增,数据库本身也越来越复杂,导致越来越多的因素可以影响数据库性能;2. 面向数据库的各种算法不再是“one size fits all”,具体的实现必须面向具体的需求。针对以上问题,本项目着眼于通用数据库智能化问题,融合传统数据库技术和深度学习技术,将数据库的核心模块“查询和索引”变得更加智能化,构建包括:融合神经网络的分布式数据库索引框架、知识驱动的数据库查询引擎、智能化数据库调优等关键数据库模块,解决复杂情况下大规模分布式数据库难以确定数据存储模型、查询优化方案以及数据库性能调优的问题,并支持在Mysql和阿里巴巴分布式数据库POLARDB上建立原型系统。
近年来基于深度学习的数据库智能化研究(AI4DB)蓬勃发展,国内外的知名高校、企业都投入大量研发力量开始相关的工作。本项目研究了将人工智能技术应用于数据库内优化的若干关键技术,主要聚焦于数据库索引自动搜索、数据库查询优化和数据库接口智能化等三个方面。在数据库索引搜索方面,本项目在LSM-Tree结构的基础上提出了一种基于跳表的两层内存索引结构,有效的提升了查询性能,并采用基于神经网络搜索的技术自动构建索引结构,接近了one index for one application的问题。在数据库查询优化方面,本项目分析了现有的结合人工智能的数据库查询优化中查询表示方法的缺陷,提出了基于表示学习的查询向量化编码模型PreQR,能在多个下游任务(如索引推荐、查询聚类和SQL2NL等)取得最佳效果;针对SPJ查询里面代价最高的join查询,本项目提出了一种基于深度强化学习的数据库多表连接顺序优化框架Joiner,并将其应用在PostgreSQL中,在JOB验证集上取得了2倍以上的性能提升。在数据库接口优化方面,本项目以面向多轮会话场景的自然语言转SQL任务为研究对象,提出了Tree-SQL方法,在极具挑战性的带有数值选择任务的场景型Text-to-SQL基准测试SParC中,新的模型以48.5%的问题执行准确率和21.6%的交互式执行准确率达到该领域最优(截至论文发表时)。本项目在数据库索引、查询优化和自然语言接口方面取得了一系列研究成果,共发表论文16篇,其中CCF-A类论文6篇,CCF-B类论文6篇,并在AZFT(阿里巴巴-浙大前沿技术研究中心)的合作框架下,同阿里云PolarDB的工程师团队一起,将三大创新技术融合进云原生数据库PolarDB内部核心模块:智能查询处理引擎模块,并支持阿里巴巴集团内部如:淘宝、天猫等业务和集团外部如:健康码、淘工厂等产品和服务。近3年来,具备智能优化技术的云原生PolarDB系统,服务超过10万家企业用户,新增经济效益5亿元,成果获得2020年电子学会科技进步一等奖(排名3/15)。在下一代数据库系统的研发中,人工智能技术和数据库技术的进一步融合,已经成了阿里云数据库团队的核心路线。本项目的成果将进一步迭代演进,并扩展到其他数据库模块(如存储模块、缓存模块等),为最终建立完善的自治数据库系统打下理论和技术基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
基于全模式全聚焦方法的裂纹超声成像定量检测
一种改进的多目标正余弦优化算法
基于深度学习和迁移学习的东盟跨语言查询扩展研究
基于深度学习的智能天线智能化增强方法研究
支持超平面查询的Web图像数据库索引及主动学习技术研究
数据库的新型查询技术研究