大规模概率数据的管理与查询优化

基本信息
批准号:61202009
项目类别:青年科学基金项目
资助金额:25.00
负责人:李建
学科分类:
依托单位:清华大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:陈子仪,袁文,金凯,吴成刚,王子贺,梁宏宇,吴限
关键词:
概率数据库非确定性随机优化
结项摘要

Uncertainties are inevitably involved in almost all important decision problems. Examples include noise generated in data measurement, errors produced in parameter estimation, and so on. Generally speaking, one systematic way to deal with uncertain data is to view the data as random variables and to manage and query the data according to probability theory. As the volume of probabilistic data generated increases drastically, handling such data becomes a highly difficult problem. Therefore, we need new database systems and query optimization algorithms to answer the new challenge. Due to its significance and difficulty, building probabilistic databases and developing scalable and efficient query optimization algorithms recently have attracted a lot of attentions from database and algorithm researchers. In this project, we aim to systematically investigate the problems of managing and querying large-scale probabilistic data. In particular, we plan to study the following concrete problems: (1) Developing more efficient algorithms for processing SQL, ranking and range queries for uncertain data; (2) Developing streaming algorithms for uncertain data sets; (3) Studing various optimization problems under uncertain input; (4)Identifing new applications for probabilistic databases, especially in new application domains such as wireless sensor data monitoring and crowdsourcing.

几乎所有的决策问题都不可避免的包含了一定程度的非确定因素,如数据测量中产生的噪音,参数估计的误差等等。一般来讲,处理非确定性数据的一个系统的方法是将这些数据视为随机变量,然后以概率论为原则去进行数据处理和优化。随着生成的非确定数据的规模日益增加,处理和查询这些数据的难度也越来越大。因此我们需要新型的处理随机数据的数据库系统和新的查询优化算法。今年来,关于概率数据库和处理随机输入数据的优化算法是国际上研究的热点和难点,存在很多挑战。我们计划在本项目中对随机数据的管理和查询优化算法进行深入系统的研究。具体来讲,我们计划深入探索如下问题:(1)关于非确定数据上的SQL查询,排序,区间查询等问题的更有效的算法;(2)非确定数据的流算法;(3)在非确定输入下的各种优化问题;(4)非确定数据处理算法的应用,特别是在如传感器网络数据监控、群众外包等新兴领域中的应用。

项目摘要

近年来,随着各种信息采集、整合系统,社会网络数据,机器学习预测算法的普遍采用,这些算法和系统所产生的非确定数据,随机数据,概率数据的规模也日益增加。同时,各类决策问题也都不可避免的包含了一定程度的非确定因素。因此,处理和查询这些数据,并基于这些数据来解决优化问题的难度也随之加大。.该项目在这个大的背景下,有步骤的、系统的研究了处理和查询非确定数据,以及随机优化领域的若干问题,并取得了重要进展。其中,有代表性的成果包括(1)在随机组合优化领域,我们发展了泊松近似的技术,并利用该技术给出了一大类随机组合优化问题的最优近似算法,改进了前人在多个相关问题上的结果;(2)在概率模型学习与表示领域,我们第一次给出了最优的学习离散混合模型的采样复杂度;(3)在随机学习算法领域,我们第一次给出了多臂bandit选取问题的最优采样算法。另外我们对于随机数据上区间查询,大规模数据的清洗等问题进行了深入研究并给出了更有效的算法。我们结合了概率论,组合优化,凸几何,泛函分析,矩阵摄动理论,傅立叶分析和函数近似理论等多个领域的思想和工具,提出了处理随机数据,学习概率模型,以及解决随机优化问题的若干新技术,并利用这些技术解决了若干该领域内重要理论问题。在项目支持下,我们还在相关领域如近似算法、最近邻查询算法以及网络算法方面取得了若干成果。.在该项目支持下共发表会议与期刊文章 22 篇,其中 CCF A 类会议及期刊文章 8 篇,包括计算机科学顶级会议及期刊STOC,SODA,VLDB,NIPS,ICML,PAMI,TON等。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
2

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
3

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
4

基于混合优化方法的大口径主镜设计

基于混合优化方法的大口径主镜设计

DOI:10.3788/AOS202040.2212001
发表时间:2020
5

变可信度近似模型及其在复杂装备优化设计中的应用研究进展

变可信度近似模型及其在复杂装备优化设计中的应用研究进展

DOI:10.3901/jme.2020.24.219
发表时间:2020

李建的其他基金

批准号:31900593
批准年份:2019
资助金额:24.00
项目类别:青年科学基金项目
批准号:40705025
批准年份:2007
资助金额:20.00
项目类别:青年科学基金项目
批准号:51902315
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:41701379
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:91637210
批准年份:2016
资助金额:300.00
项目类别:重大研究计划
批准号:61772297
批准年份:2017
资助金额:63.00
项目类别:面上项目
批准号:30672740
批准年份:2006
资助金额:28.00
项目类别:面上项目
批准号:11703044
批准年份:2017
资助金额:28.00
项目类别:青年科学基金项目
批准号:71001053
批准年份:2010
资助金额:17.70
项目类别:青年科学基金项目
批准号:21402226
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:31500657
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:81801097
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:61601093
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:11074205
批准年份:2010
资助金额:45.00
项目类别:面上项目

相似国自然基金

1

按列存储数据管理系统的查询优化

批准号:61003069
批准年份:2010
负责人:周敏奇
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
2

大规模图数据管理中结构相似度查询处理技术研究

批准号:61402498
批准年份:2014
负责人:赵翔
学科分类:F0202
资助金额:26.00
项目类别:青年科学基金项目
3

云环境下大规模动态图数据查询处理与优化技术研究

批准号:61472169
批准年份:2014
负责人:宋宝燕
学科分类:F0202
资助金额:82.00
项目类别:面上项目
4

面向概率数据流的聚集查询处理技术

批准号:60803020
批准年份:2008
负责人:金澈清
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目