大规模概率数据的管理与查询优化

基本信息

批准号：61202009

项目类别：青年科学基金项目

资助金额：25.00

负责人：李建

学科分类：

依托单位：清华大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：陈子仪,袁文,金凯,吴成刚,王子贺,梁宏宇,吴限

关键词：

概率数据库非确定性随机优化

结项摘要

Uncertainties are inevitably involved in almost all important decision problems. Examples include noise generated in data measurement, errors produced in parameter estimation, and so on. Generally speaking, one systematic way to deal with uncertain data is to view the data as random variables and to manage and query the data according to probability theory. As the volume of probabilistic data generated increases drastically, handling such data becomes a highly difficult problem. Therefore, we need new database systems and query optimization algorithms to answer the new challenge. Due to its significance and difficulty, building probabilistic databases and developing scalable and efficient query optimization algorithms recently have attracted a lot of attentions from database and algorithm researchers. In this project, we aim to systematically investigate the problems of managing and querying large-scale probabilistic data. In particular, we plan to study the following concrete problems: (1) Developing more efficient algorithms for processing SQL, ranking and range queries for uncertain data; (2) Developing streaming algorithms for uncertain data sets; (3) Studing various optimization problems under uncertain input; (4)Identifing new applications for probabilistic databases, especially in new application domains such as wireless sensor data monitoring and crowdsourcing.

几乎所有的决策问题都不可避免的包含了一定程度的非确定因素，如数据测量中产生的噪音，参数估计的误差等等。一般来讲，处理非确定性数据的一个系统的方法是将这些数据视为随机变量，然后以概率论为原则去进行数据处理和优化。随着生成的非确定数据的规模日益增加，处理和查询这些数据的难度也越来越大。因此我们需要新型的处理随机数据的数据库系统和新的查询优化算法。今年来，关于概率数据库和处理随机输入数据的优化算法是国际上研究的热点和难点，存在很多挑战。我们计划在本项目中对随机数据的管理和查询优化算法进行深入系统的研究。具体来讲，我们计划深入探索如下问题：（1）关于非确定数据上的SQL查询，排序，区间查询等问题的更有效的算法；（2）非确定数据的流算法；（3）在非确定输入下的各种优化问题；（4）非确定数据处理算法的应用，特别是在如传感器网络数据监控、群众外包等新兴领域中的应用。

项目摘要

近年来，随着各种信息采集、整合系统，社会网络数据，机器学习预测算法的普遍采用，这些算法和系统所产生的非确定数据，随机数据，概率数据的规模也日益增加。同时，各类决策问题也都不可避免的包含了一定程度的非确定因素。因此，处理和查询这些数据，并基于这些数据来解决优化问题的难度也随之加大。.该项目在这个大的背景下，有步骤的、系统的研究了处理和查询非确定数据，以及随机优化领域的若干问题，并取得了重要进展。其中，有代表性的成果包括（1）在随机组合优化领域，我们发展了泊松近似的技术，并利用该技术给出了一大类随机组合优化问题的最优近似算法，改进了前人在多个相关问题上的结果；（2）在概率模型学习与表示领域，我们第一次给出了最优的学习离散混合模型的采样复杂度；（3）在随机学习算法领域，我们第一次给出了多臂bandit选取问题的最优采样算法。另外我们对于随机数据上区间查询，大规模数据的清洗等问题进行了深入研究并给出了更有效的算法。我们结合了概率论，组合优化，凸几何，泛函分析，矩阵摄动理论，傅立叶分析和函数近似理论等多个领域的思想和工具，提出了处理随机数据，学习概率模型，以及解决随机优化问题的若干新技术，并利用这些技术解决了若干该领域内重要理论问题。在项目支持下，我们还在相关领域如近似算法、最近邻查询算法以及网络算法方面取得了若干成果。.在该项目支持下共发表会议与期刊文章 22 篇，其中 CCF A 类会议及期刊文章 8 篇，包括计算机科学顶级会议及期刊STOC，SODA，VLDB，NIPS，ICML，PAMI，TON等。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2020

DOI：

发表时间：2021

DOI：

发表时间：2021

李建的其他基金

批准号：31900593

批准年份：2019

资助金额：24.00

项目类别：青年科学基金项目

批准号：40705025

批准年份：2007

资助金额：20.00

项目类别：青年科学基金项目

批准号：51902315

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：41701379

批准年份：2017

资助金额：24.00

项目类别：青年科学基金项目

批准号：91637210

批准年份：2016

资助金额：300.00

项目类别：重大研究计划

批准号：61772297

批准年份：2017

资助金额：63.00

项目类别：面上项目

批准号：30672740

批准年份：2006

资助金额：28.00

项目类别：面上项目

批准号：11703044

批准年份：2017

资助金额：28.00

项目类别：青年科学基金项目

批准号：71001053

批准年份：2010

资助金额：17.70

项目类别：青年科学基金项目

批准号：21402226

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：31500657

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：81801097

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：61601093

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

批准号：11074205

批准年份：2010

资助金额：45.00

项目类别：面上项目

相似国自然基金

按列存储数据管理系统的查询优化

批准号：61003069

批准年份：2010

负责人：周敏奇

学科分类：F0202

资助金额：20.00

项目类别：青年科学基金项目

大规模图数据管理中结构相似度查询处理技术研究

批准号：61402498

批准年份：2014

负责人：赵翔

学科分类：F0202

资助金额：26.00

项目类别：青年科学基金项目

云环境下大规模动态图数据查询处理与优化技术研究

批准号：61472169

批准年份：2014

负责人：宋宝燕

学科分类：F0202

资助金额：82.00

项目类别：面上项目

面向概率数据流的聚集查询处理技术

批准号：60803020

批准年份：2008

负责人：金澈清

学科分类：F0202

资助金额：20.00

项目类别：青年科学基金项目

大规模概率数据的管理与查询优化

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

一种基于多层设计空间缩减策略的近似高维优化方法

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

药食兼用真菌蛹虫草的液体发酵培养条件优化

李建的其他基金

Cyclin B2/CDK1通过APC/CCDH1调控卵母细胞减数分裂恢复的机制研究

我国西南地区春季气候变化特征分析和模拟研究

反应烧结Cf/ZrB2-SiC-ZrC复合材料的晶间液相控制及界面行为调控

基于星地联合观测的高动态变化湖泊水环境时空采样方法研究

大气环流模式对青藏高原陡峭地形区降水模拟的改进研究

随机组合优化算法与复杂性研究

复方丹参诱导血管新生与血管舒张的分子机制研究

通用型可视化望远镜操作界面的研究

多中心动态集散货物路线问题模型及超级启发式算法研究

基于CCR5三维结构的小分子拮抗剂的发现及生物活性研究

DNA聚合酶zeta（Pol ζ）维持基因组稳定性的机制研究

自噬-趋化因子交联介导星形胶质细胞-神经元交流参与神经病理性疼痛的机制研究

汞基电磁超材料特性及其温度感知关键技术研究

磁双分散磁性液体的微结构及其磁化、磁光性质的调控

相似国自然基金