Since most of big data is raw data, the commercial value in it cannot be utilized. The biggest obstacle to use classification technique in mining big data is: the lack of labeling data as training samples. The new human computation, crowdsourcing, can label data with very low cost and high-efficiency. This research project will explore the related theory and technical challenges when using crowdsourcing labeling data in classification, in order to mine big data with low-cost and high-efficiency. This project will study the classification model of integrating crowdsourcing, to utilize the inaccurate and redundant training samples from crowdsourcing, to achieve good performance; also the active learning method of integrating crowdsourcing will be studied, to efficiently select samples, labelers and labeling strategies, to achieve good performance. This study will enrich the theories of classification model and the active learning, and is expected to open up a new direction of active learning.
由于很多大数据是未经分类和标注的原始数据,其蕴含的丰富商业价值很难被利用。而阻碍分类挖掘技术对大数据进行分类挖掘的最大障碍是:极度缺少标注训练样本。而新的人类计算方式─众包,能进行低成本、高效率的数据标注。本课题主要探讨有效利用众包标注的数据进行分类挖掘,所要解决的理论与技术挑战,以便对大数据进行低成本、高时效的分类挖掘。本课题将研究集成众包的分类模型,来利用众包标注的不准确和冗余的训练样本,获得较好的分类性能;同时还研究集成众包的主动学习方法,来高效选择样本、标注者、标注策略,从而更有效的利用众包实现更好的分类挖掘。本研究期望丰富数据挖掘的分类模型理论和主动学习理论,并有望开拓主动学习的新方向。
本项目的研究背景:在大数据时代,每天产生海量的数据,其中很多大数据是未经分类和标注的原始数据,其蕴含的丰富商业价值很难被利用。而阻碍分类挖掘技术对大数据进行商业价值挖掘的最大障碍是:极度缺少标注训练样本。而新涌现的人类计算方式─众包,能进行低成本、高效率的数据标注。.本课题主要研究内容:探讨有效利用众包标注的数据进行分类挖掘,所要解决的理论与技术挑战,以便对大数据进行低成本、高时效的分类挖掘。本课题将研究集成众包的分类模型,研究集成众包的主动学习方法,来高效选择样本、标注者、标注策略,从而更有效的利用众包实现更好的分类挖掘。.本课题重要结果包括:人才培养方面,主持人获得自科“优青”资助。论文发表方面,发表SSCI/SCI论文3篇,其中2篇为国际顶级期刊(UT Dallas期刊,主持人为一作)。提出的基于主动学习的Large-Margin Classifiers方法,只要利用较少的标注样本,就能较准确的对社交媒体的文本数据进行语义标注,便于发现数据中深层的价值。此研究采用独特的视角,将主动学习看作是最优参数的搜索过程,提出了提升数据分析性能的有效策略. 实验评估表明,本研究提出的方法利用少量标注数据(降低19.74%的标注成本),就能达到较好的性能。这为利用众包进行大数据分析提供了模型和方法基础。并丰富了数据挖掘的分类模型理论和主动学习理论。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
人机融合智能数据挖掘系统中众包策略优化的研究
大数据众包计算中真相发现关键技术研究
基于众包的数据清洗关键技术研究
当分形遇到频谱分析:机遇、挑战及应对的探讨