针对来自众包的大数据支持向量机研究

基本信息
批准号:61573191
项目类别:面上项目
资助金额:64.00
负责人:顾彬
学科分类:
依托单位:南京信息工程大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:盛胜利,郑关胜,闫雷鸣,李翔,杨轩,权鑫,马卢玉,李挺,瞿晶晶
关键词:
模型选择大数据学习众包支持向量机弱标签学习
结项摘要

Crowdsourcing is an emerging method for labeling samples from a large group of people. It is possible to obtain less-than-expert labeling at low cost, and can be done via on-line outsourcing systems such as Amazon Mechanical Turk, Baidu Public Testing, and so on. Learning weakly labels from crowdsourcing is a new challenge in machine learning. Normally, learning on the data from crowdsourcing is done by firstly estimating the true label from the multiple weakly labels directly or indirectly, and then learning the model from the estimated true labels. This mode is usually implemented by the EM-style inference method. However, the EM-style inference method is not guaranteed to obtain the optimal solutions. It is also low efficient, and cannot handle the learning on big data. To address the problem of learning the big data from crowdsourcing, this project will firstly give the support vector machine formulations for the different tasks of the learning. Then, for the three typical problems in the setting of big data, i.e., batch learning, incremental learning, and model selection, this project will give their effective methods, respectively, based on the technologies of stochastic gradient descent and coordinate descent. A real-world application of this project is to analysis the medical images. If the project can be done successfully, it will also have a great promotion for learning on the data from crowdsourcing in other real-world applications.

众包利用一些人员对数据进行标记,以较低的代价获得多个稍弱的标注。众包是目前新兴的解决数据标记的方法,可以通过Amazon Mechanical Turk,百度众测等在线外包平台实现。而基于众包的弱标签数据学习是机器学习面临的新挑战。目前,众包学习是通过直接或间接地方法对弱标签估计真实标签,然后基于估计的标签进行学习。该模式一般通过EM算法实现,而EM类算法不保证问题获得最优解,且计算效率低下,不能处理大数据学习问题。为了解决目前大量出现的大数据下的众包学习,本课题在支持向量机框架下,首先针对众包学习中多种学习任务给出相应支持支持向量机形式。然后,针对大数据场景中三个典型问题:批处理学习、增量学习、以及模型选择,本课题将围绕随机梯度下降和坐标下降技术,给出相应有效的大数据解决方案。本课题的实际应用场景是医学图像分析。项目的成功实施也将促进众包学习在其他实际问题中的应用。

项目摘要

本课题以支持向量机为框架,首先,设计解决众包学习中回归,有序回归,以及多类分类问题的支持向量机形式。然后,针对大数据场景中三个典型问题:批处理学习、增量学习、以及大数据模型选择,基于流行的大数据优化技术(随机梯度下降技术和坐标下降技术),分别给出相应有效的解决方案。研究成果主要如下:.1)针对代价敏感支持向量机问题,我们提出一种能够实现对一批样本进行精确的增量式学习的方法。该成果发表在国际模式识别重要刊物Pattern Recognition上面。.2)我们为核S3VM提供了一种新颖的三重随机梯度算法,以使其具有可扩展性。我们为TSGS3VM建立了新的理论分析,以确保TSGS3VM可以有效地收敛到弱假设下一般非凸学习问题的平稳点。在各种基准数据集上的大量实验结果证明了我们提出的TSGS3VM的优越性。该成果发表在国际人工智能重要会议UAI上面。.3)针对心室MRI图像,我们提出一种有效的直接评估泵出率指标的方法。该果发表在国际重要期刊Information Sciences上面。.4)我们实现了一种新的GSP算法,从理论和实践的角度出发,我们认为GSP非常重要。首先,GSP为大量的PQP问题提供了统一而强大的实现,其中大量的PQP问题仍然没有解决方案路径算法。其次,更重要的是,由于GSP具有统一的框架,因此易于被研究人员或用户使用。该研究成果发表在国际机器学习重要期刊TNNLS上面。.5)SVOR是解决OR问题的流行方法,我们实现了一种针对SVOR的正则化路径算法(RPSVOR),该算法可以跟踪SVOR关于正则化参数的两组变量。从技术上讲,我们使用QR分解来处理正则化路径中的奇点。该研究成果发表在国际机器学习重要期刊Neural Networks上面。.6)针对结构化的稀疏正则项的训练,我们提出一种基于不精确的近端算法实现快速的结构化稀疏正则项的训练。该成果发表在国际人工智能重要会议IJCAI上面。.7)SMO在解决各种SVM中起着重要作用。我们为二进制分类,回归,序数回归等各种SVM实现了一个加速SSGDSMO的框架。SSGD-SMO的关键是提供一种有效的方法,将SSGD的解决方案映射到SMO的解决方案。SMO算法在后半迭代中具有快速收敛性,并且可以保证解的准确性。SSGD可以非常快速地构建良好的解决方案。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

顾彬的其他基金

批准号:21802135
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:61202137
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目

相似国自然基金

1

高维缺失数据半监督支持向量机研究

批准号:12126333
批准年份:2021
负责人:祝志川
学科分类:A04
资助金额:10.00
项目类别:数学天元基金项目
2

高维缺失数据半监督支持向量机研究

批准号:12126362
批准年份:2021
负责人:唐年胜
学科分类:A04
资助金额:20.00
项目类别:数学天元基金项目
3

面向大量数据的半监督支持向量机的优化方法研究

批准号:11601174
批准年份:2016
负责人:熊慧娟
学科分类:A0405
资助金额:16.00
项目类别:青年科学基金项目
4

不确定数据分类学习的支持向量机算法研究

批准号:61105054
批准年份:2011
负责人:谢宗霞
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目