Crowdsourcing utilizes the power of the general crowd and has attracted lots of attention in recent years, as it provides a time- and cost-efficient way to finish a large number of tasks. Crowdsourcing has been used to perform human intelligence tasks such as image labeling, sentiment analysis, and translation. It has also been applied in domains such as creative services, development and design, and content creation. However, different crowd participants have different reliabilities, which are unknown a priori and are affected by diverse factors. As a result, the quality of crowdsourcing becomes its bottleneck. In consideration of the rapid growth of crowdsourcing and the lack of effective quality control techniques, this project investigates the truth discovery technique in large-scale crowdsourcing. Truth discovery is a technique that can automatically find the truth in diverse claims in order to guarantee the quality of crowdsourcing. This project plans to mine large-scale crowdsourcing data, analyze the factors that affect participants’ behaviors and reliabilities, build models for participants, design algorithms to infer the truths, and develop a demo system for truth discovery. This project can provide supporting techniques and system tools for crowdsourcing and other important applications which build on information credibility. This project can also enhance our ability to manage, to distinguish false from true, as well as to effectively utilize massive online information.
众包计算利用大众的力量,提供了一种以更高的效率、更低的成本满足生产及生活需求的新模式,在近几年得到了广泛关注。众包计算已经被用于图像标注、情感分析、外文翻译等多种任务,也在创意服务、研发设计、内容创造等领域出现了实际应用。然而,由于众包参与者的可信度参差不齐、预先未知且受到多种因素复杂影响,使得众包计算的质量问题成为了制约其有效性的一大瓶颈。鉴于众包计算的快速发展和现有有效质量控制技术的不足,本项目面向大数据众包计算,研究保障其质量的真相发现(truth discovery)关键技术。通过挖掘海量众包数据及分析影响参与者行为及可信度的因素,来建立参与者模型,设计大数据环境下的真相推测算法,并研发真相发现原型系统。为保障众包计算的质量以及其他以信息真实性为基础的重要应用如谣言识别、知识库建立等提供技术支持和系统工具,同时提高我国对海量在线信息的科学管理水平、真伪鉴别能力和有效利用能力。
项目执行期间,根据项目计划书,从众包大数据分析挖掘、参与者模型、真相推测、参与者选择四个方面展开面向大数据众包计算的真相发现研究,取得了一系列有特色的研究成果,包括群体信息传播建模方法、参与者行为建模方法、参与者选择方法、真相推测方法等,得到了国内外研究同行的广泛认可和跟进,形成了持续的学术影响力。受项目资助,完成论文10篇(期刊论文3篇,会议论文7篇),其中1篇论文被SCI收录,1篇被SCI源刊接收,8篇论文被EI收录,4篇论文发表或接收于IEEE TKDE、AAAI、IJCAI、WWW等CCF推荐的A类期刊或会议,1篇期刊论文(SCI源)在投,目前累计引用80余次(Google Scholar)。..取得的代表性成果有:(1)众包大数据分析挖掘方面,基于海量实际众包数据,分析了参与者的影响力,提出了端到端框架下建模信息传播机制的模型,很好的建模了传播路径在流行众包大数据分析挖掘方面度预测中的作用;(2)参与者模型方面,提出了基于参与者行为的表示方法,通过参与者的历史行为数据以及参与者的社交关系对参与者进行刻画,克服了传统需要额外花费的问题;(3)真相推测算法方面,提出了基于异质网络的真相推测方法,建模了信息源与信息以及信息源之间的关系,更好的捕捉了数据的潜在分布,预测精度显著超过了经典的投票方法;(4)参与者选择算法方面,根据参与者模型和众包数据,学习出参与者的表示,设计了序列化的参与者选择算法,识别高可信度参与者,很好地兼顾了任务的具体需求以及参与者成本。..人才培养方面,直接参与项目研究工作的4名博士生获得博士学位,1名硕士生获得硕士学位,1名硕士生转博。项目负责人入选中科院百人计划C类人才。
{{i.achievement_title}}
数据更新时间:2023-05-31
黄河流域水资源利用时空演变特征及驱动要素
敏感性水利工程社会稳定风险演化SD模型
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
创业者的工作家庭冲突① ———基于角色转型的视角
基于众包的数据清洗关键技术研究
空间众包数据处理及其优化关键技术研究
众包数据库的基础理论与关键技术研究
当机器智能遇到人类计算─基于众包的分类数据挖掘技术研究