Semi-supervised learning, which is located between supervised learning and unsupervised learning, not only takes full advantage of labeled data but also takes into structural information implicitly in all data sets account, so it has wide application fields. Graph-based semi-supervised learning makes use of data graph to characterize data internal structure, and it can inflect different data distribution features, therefore it can improve direct application value and potential application areas of semi-supervised learning. Focusing on semi-supervised binary classification problem, semi-supervised multi-class classification problem and semi-supervised multi-label classification problem, the project will study optimization models and algorithms for graph-based semi-supervised learning and present their optimization theoretical framework from the perspective of optimization theory and methods. Global-local collaborative learning strategy is used to improve generation capability of the models, and active learning is utilized to improve the problem, which we cannot intervene in unlabeled data in the process of learning, in order to improve learning performance. Then they are applied to practical problems to verify the effectiveness and efficiency of a series of models, finally all will provide theory, methods and technical support for research and application of graph-based semi-supervised learning.
半监督学习介于有监督学习和无监督学习之间,既充分利用了有标记数据的信息又考虑了所有数据集所隐含的结构信息,具有广泛的应用领域。基于图的半监督学习利用数据图来刻画数据间内在结构,能更适应数据的不同分布等特点,从而提高了半监督学习直接的应用价值和潜在的应用领域。本项目将从最优化理论与方法的角度,重点围绕半监督二类分类问题、半监督多类分类问题和半监督多标记分类问题,研究基于图的半监督学习的最优化模型和算法,给出其最优化理论框架。利用全局局部协同学习策略进一步提高泛化能力,利用主动学习改进未标记样本无法干预的问题以提高学习性能,并将它们应用到实际问题验证一系列模型的效果,最终为基于图的半监督学习的研究和应用提供理论、方法和技术支持。
主动学习和半监督学习同为研究数据集中有标记样本少的分类问题的重要方法,如何将二者有效结合具有重要意义。提出了一种基于改进贝叶斯算法的主动学习与半监督学习结合算法。算法利用最大信息熵策略主动选择选出信息量最大的未标记样本交由专家进行标记,再用改进的贝叶斯分类算法进行分类。该算法集中了半监督学习和主动学习算法的优势,提高了半监督学习执行效率,一定程度上避免了由于被动接受数据而带来的分类效果不理想的问题,取得了较好的分类效果,同时,分类器也可以自动预测和控制分类;针对一次只选择一个最值得标注的样本、迭代次数多、训练时间代价很大的缺陷,设计批量主动选择的算法,通过构造和改进损失函数的正则项和梯度下降进行批量选择,选择那些会对当前模型带来较大潜在改变(蕴含较多信息)的未标记样本进行标记。使选择的样本标注后加入训练集后能够使有标记的样本损失降低最大、目标函数梯度下降最快,同时,剩下的未标记样本信息量降低最大,即不确定性变小。实验结果显示分类效果良好。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
基于图的半监督学习算法研究
半监督距离度量学习的优化模型与有效算法研究
基于图的半监督学习的快速鲁棒算法研究及其应用
基于进化算法的半监督多任务深度学习及应用