基于分治融合与主动学习的极速学习机方法研究

基本信息
批准号:61402460
项目类别:青年科学基金项目
资助金额:24.00
负责人:王冉
学科分类:
依托单位:深圳大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:赵鹤,张巍,张凯,张潇,蔡芷铃
关键词:
极速学习机海量数据主动学习分治融合钓鱼网站
结项摘要

Constructing effective and efficient learning machines on massive data becomes a main challenge in the areas of machine learning and pattern recognition. Extreme learning machine (ELM) is a promising technique for solving this problem due to its high generalization capability and extremely fast learning speed. Based on our preliminary works, this project aims to further discuss the theory and algorithms of ELM on massive data. The contents include: (1) analyze the ELM approximate error based on sample uniformity; (2) construct ELM algorithms with the divide-and-conquer strategy under distributed and parallel mode, and further study the fusion of ELMs as well as their convergence to the objective function; (3) design ELM based active learning algorithms and outlier detection methods, in order to collect enough training samples with good quality, and improve the generaliztion capability of ELM; (4) apply the above analytical results to the text and visual features of massive phishing web, in order to overcome the drawbacks of low recognition rate and high time complexity in traditional methods, and provide theoretical basis and technical support to the development of high-performance intelligent phishing web recognition systems. The expected outputs will provide new theories and tools to solve massive data classification.

针对海量数据构建高速有效的学习机是近年来机器学习与模式识别领域最具挑战的问题之一。由于极速学习机(ELM)具有泛化性能高与训练速度极快的特点,在处理海量数据上具有很高的应用潜能。本项目基于前期的研究成果,进一步从理论和算法方面深入研究面向海量数据的极速学习机方法。研究内容包括:(1) 提出基于均匀度分析的ELM误差估计模型;(2) 构建分治融合策略下的ELM算法及其分布式并行模式下的实现策略,讨论融合后的ELM向目标函数的收敛;(3) 构建基于ELM的主动学习算法和离群点检测算法,通过选择取样的方式收集高质量的训练样本,提高ELM的泛化性能;(4) 将上述研究结果应用到海量钓鱼网站的文本与视觉特征的识别,从而克服传统方法识别率低与识别速度慢的问题,为建立高性能的钓鱼网站智能识别系统提供坚实的理论依据与可靠的技术支持。预期成果将为海量数据分类提供新的理论及应用工具。

项目摘要

极速学习机(Extreme Learning Machine-ELM)是近些年新兴的一类基于单层前馈神经网络的监督学习模型,通过对输入权值进行随机赋值、对输出权值进行基于矩阵伪逆的求解,克服了传统BP神经网络训练速度慢、易陷入局部最优的缺点,并保持了很高的泛化性能,在大数据机器学习上具有十分广泛的理论价值与应用前景。本项目系统地研究了ELM的泛化能力与误差估计,提出了一系列在大数据上改进其泛化能力的模型,提出了基于ELM与相关分类器的一系列主动学习算法,并且将以上理论与算法研究成果应用到了几个大数据、时间-空间数据分析的问题上。主要研究内容和重要结果包括:.1、将样本均匀度分析与分类复杂度的概念引入到ELM 的误差估计与泛化能力研究,在不同分类复杂度与样本高斯分布的假设与前提下,探讨 ELM 的泛化能力与模型输出不确定性之间的关联,从而为提高模型性能给出了新的指引方向; .2、提出了一系列大数据上 ELM 的算法改进,包括基于多重准则决策系统的ELM结构选择 (即网络隐层节点个数选择)、大数据上消除数据冗余的区间ELM方法、基于受限波兹曼机的深度 ELM 网络训练模型、适用于各种输出层节点分布的广义 ELM 模型、快速训练模型等,从而在学习性能与效率上实现了提升; .3、提出了一系基于 ELM 与相关分类器的主动学习算法,包括基于样本池与样本流的主动学习框架,样本的信息度评价标准--如不确定性度量、不一致性度量、基于模糊粗糙集的隶属度计算等,并将主动学习算法从传统二分类问题扩展到多分类问题与多实例问题; .4、将以上理论研究与算法研究的成果应用到实际的大数据、时间-空间数据分析的问题上,包括手机基站数据、出租车GPS轨迹数据、视频编码数据等,针对具体的数据应用建立了可行的分析系统。.以上是本项目通过研究ELM的泛化性能、ELM在大数据上的改进算法与基于ELM的主动学习算法得到的主要结果。项目研究迄今发表学术论文14篇。其中,SCI检索11篇,JCR一区论文6篇,JCR二区论文3篇,JCR三区论文2篇(其中包括中科院一区TOP论文4篇,CCF A类论文1篇)。这些研究成果丰富了ELM的理论研究和应用,对于复杂环境下的大数据、时间-空间数据分析有重要意义,在构建高性能复杂分类系统、大数据决策支持系统等领域有着广泛的应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

王冉的其他基金

批准号:61772344
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:81402901
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81301150
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:31302009
批准年份:2013
资助金额:24.00
项目类别:青年科学基金项目
批准号:11871382
批准年份:2018
资助金额:50.00
项目类别:面上项目
批准号:81473484
批准年份:2014
资助金额:74.00
项目类别:面上项目
批准号:81102710
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:41402044
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:11301498
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:51505277
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于张量极速学习机的多模生物特征融合识别方法

批准号:61673316
批准年份:2016
负责人:张新曼
学科分类:F0304
资助金额:61.00
项目类别:面上项目
2

面向分布式存储大数据的极速学习机集成方法研究

批准号:61503252
批准年份:2015
负责人:何玉林
学科分类:F0603
资助金额:20.00
项目类别:青年科学基金项目
3

需求跟踪行为认知与主动学习机理研究

批准号:61402108
批准年份:2014
负责人:王金水
学科分类:F0203
资助金额:25.00
项目类别:青年科学基金项目
4

基于海量语义轨迹的交通驾驶行为认知与主动学习机理研究

批准号:61304199
批准年份:2013
负责人:廖律超
学科分类:F0604
资助金额:26.00
项目类别:青年科学基金项目