Crowdsourcing is a new computing model, which utilizes the wisdom of the crowd to address the data management and analytics tasks that cannot be completely addressed by automated processes. However existing works studied the crowdsourcing problems cases by cases from the application level. There is lack of studies from the system level that devise efficient crowdsourced databases to help requesters manage their tasks. Thus it calls for a crowdsourced database to process the crowdsourced tasks, which is similar to the traditional database designed to manage files. Crowdsourced databases pose three new research challenges. First, there is lack of crowdsourcing metric to describe the characteristics of the crowd. Second, there is lack of crowdsourcing theory to control the cost, quality and latency. Third, there is lack of crowdsourcing optimization mechanism to optimize complex crowdsourced tasks. The key scientific problem summarized in this proposal is metric model, controllable theory and optimization mechanism. The research problems include crowdsourcing theory, crowdsourcing operator, crowdsourcing optimization, and crowdsourcing interface. The objective is to establish the crowdsourcing theory, address the key problems, construct a crowdsourced database, make breakthroughs, and train innovative talents.
现有众包研究一般都是从应用层角度出发,通过调用众包平台的底层接口,逐个解决特定的众包应用问题(例如实体识别),而缺少一个高层的管理系统来统一支持不同的众包应用。众包数据库系统(简称众包数据库)就是为了解决通用的众包问题而提出的研究,因此类似于提出数据库系统来替代传统文件系统的研究。众包数据库面临三个挑战: (1)缺乏众包计算的可度量模型来刻画众包工人的计算特点; (2)缺少众包计算的可控理论来控制众包计算的质量、代价和延迟; (3)缺少众包计算的可优化理论来指导众包算法的优化设计。为了解决这些挑战,项目凝练的关键科学问题是众包计算的可度量、可控制、可优化问题。研究内容包括: (1)众包数据库基础理论; (2)众包数据库算子设计; (3)众包数据库查询优化; (4)众包数据库查询接口。最终建立众包数据库的基础理论,突破关键技术,研制众包数据库系统,取得国际领先的研究成果,培养若干高水平人才。
针对传统众包方法缺少众包基础理论和管理系统这一挑战性问题,本项目研究了“众包计算的可度量模型、可控理论、可优化机理”这一关键科学问题,研制了众包数据库系统,并取得了如下创新成果。.(1)众包数据库系统的基础理论:建立了众包计算的可度量、可控制、可优化理论,设计了质量感知的众包计算模型,提出了基于迭代决策的代价优化模型,设计了资源受限情况下延迟优化方法,突破了众包数据库查询优化模型。.(2)众包数据库的算子设计:提出了一系列核心众包算子设计算法,包括基于激励机制的众包收集操作算子、基于打分和两两比较的Top-k算子、基于众包的数据连接算子,显著优化了众包计算代价和延迟。.(3)众包数据库的查询优化:设计了基于图模型的众包查询优化方法,提出了基于知识图谱的智能任务调度方法,突破了基于博弈的众包查询优化模型,建立了一套众包数据库优化理论和方法。.(4)众包数据库查询接口:提出了基于收集操作的智能任务设计方法,设计了交互式在线任务分配方法,封装了通用的众包数据库接口。.(5)研制了一个通用的众包数据库管理系统,同时支持数据库传统查询以及众包查询。该系统通过类SQL语言与用户进行交互,封装了复杂的人机协作过程。与国际众包平台(如AMT等)打通,支持跨平台部署。系统应用于华为、好未来、腾讯、神州专车等公司,产生了较大的经济效益。例如应用于华为数据湖,用于海量数据的数据准备工作,提升了数据准备的效率与质量;应用于好未来题目标注,高效标注6000万道题目,具有较高的准确率;应用于腾讯公司广告数据融合,在大规模真实的微信广告数据集上进行了实验,验证了该方法的性能优势,提升了社交广告的业务指标;应用于神州专车的上车点推荐,提升推荐的效率与精度。.本项目发表了98篇为CCFA类论文,申请了22项专利,获得了国际科技进步二等奖、江苏省科技进步一等奖,获得了CIKM17最佳论文、ICDE19最佳论文、Best of KDD18、ICDE18、VLDB20。1人次获得杰青资助,2人次获得优青资助,2名博士生获得CCF优博。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
一种改进的多目标正余弦优化算法
地震作用下岩羊村滑坡稳定性与失稳机制研究
基于混合优化方法的大口径主镜设计
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
基于众包的数据清洗关键技术研究
基于众包的知识融合关键技术研究
大数据众包计算中真相发现关键技术研究
空间众包数据处理及其优化关键技术研究