Incomplete data are ubiquitous, due to a variety of reasons such as data transmission equipment failure, data integration, privacy preservation, high cost of obtaining data, etc. Skyline query has been widely adopted in many real-life scenarios including multi-criteria decision, personalized recommendation, location-based services, and so forth. The data incompleteness is one big bottleneck in the big data management. The inherent incompleteness of data directly results in the low-quality query result of skyline queries on incomplete data, making the subsequent data analysis undesirable. To this end, in this project, we will study the problem of quality optimization with crowdsourcing for skyline queries in the context of incomplete data. Taking the incomplete data object correlation and representation models of incomplete data into consideration, we will adopt crowdsourcing techniques to enable the collaboration between machine algorithms and human intelligence to deal with incomplete data, so as to improve the result quality of skyline queries over incomplete data. In addition, the performance of our proposed solution will be evaluated theoretically and empirically. The hope of this work is to bring the new energy from crowdsourcing into the study of query quality management over incomplete data, and to further make great breakthroughs in the related fields of incomplete data.
由于多种原因如数据传输设备故障、数据集成、隐私保护、数据获取代价过高等,不完整数据无处不在。Skyline查询在多准则决策、个性化推荐、基于位置的服务等许多应用场景被广泛使用。数据的不完整特性是大数据管理研究的一大瓶颈。数据本身的不完整性直接导致不完整数据Skyline查询结果质量低,使得后续数据分析效果不理想。鉴于此,本项目拟研究基于众包的不完整数据Skyline查询质量优化技术。申请人拟结合不完整数据对象之间的关联关系和不完整数据表达模型,采用众包技术使得机器算法和人类智慧协同处理不完整数据,从而提高不完整数据Skyline查询结果质量,并且通过理论分析和实验验证的方法评估所提出方案的性能。本项目的研究有望众包技术为不完整数据查询质量管理研究注入新的活力,进一步推动不完整数据相关研究领域取得重大突破。
由于传输设备故障、数据集成困难、数据获取代价高和隐私保护等原因,不完整数据无处不在。数据不完整性是大数据管理研究的关注焦点。Skyline查询在多准则决策、个性化推荐、基于位置的服务等场景应用广泛。数据不完整性直接影响Skyline查询结果的质量,造成后续数据分析效果不理想。本项目引入众包技术研究不完整数据Skyline查询质量优化问题。首先基于贝叶斯推理学习缺失数据分布,采用条件表(C-Table)表征查询结果,提出自适应概率计算方法评估查询结果的确定性;接着引入信息熵和效用函数等概念,设计三种面向众包平台的任务分配策略,实现预算约束下的查询质量最优化,并最终构建结合众包技术的Skyline查询处理框架。大量实验评估证实了方案的有效性和可扩展性。项目组圆满完成了预期研究,并拓展研究了众包任务激励机制、Skyline家族查询优化、不完整数据补全及查询定价等相关课题,完全达到了项目预期研究目标。共培养/毕业博士生3名,硕士生3名,本科生15名;相关成果在国际顶级/重要学术会议/期刊SIGMOD、VLDB、AAAI、ICDE、TKDE和TKDD等录用/发表学术论文17篇(CCF A类论文15篇,CCF B类论文2篇);授权/受理国家发明专利5项和国际(美国)发明专利1项;参加相关领域国际学术会议10人次,做国际会议学术报告/墙报展示8场;部分成果受到了国内外知名专家(如IJCAI计算机与思想奖获得者、AAAI 2017最佳学生/优秀论文奖获得者、ICLR优秀论文奖获得者、斯坦福大学Stefano Ermon教授、VLDB 1994最佳论文奖获得者、SIGMOD 2001最佳论文奖获得者、美国加州大学欧文分校Sharad Mehrotra教授,澳大利亚研究委员会Futute Fellow、2015年KDD总主席、澳大利亚悉尼科技大学操龙兵教授等)的关注/评价。本项目的研究将众包技术引入到不完整数据的查询质量管理中,为相关研究领域注入新的活力。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
肉苁蓉种子质量评价及药材初加工研究
中外学术论文与期刊的宏观差距分析及改进建议
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
群智感知系统中多维众包数据建模、存储索引与查询优化研究
空间众包数据处理及其优化关键技术研究
基于众包的数据清洗关键技术研究
不确定数据流的分布并行Skyline查询技术研究