基于增量式学习的可扩展偏最小二乘模型的研究

基本信息
批准号:61463033
项目类别:地区科学基金项目
资助金额:44.00
负责人:曾雪强
学科分类:
依托单位:南昌大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:李文,陈炼,公慧玲,吴灵芝,吴舒霞,黄志超,刘丽娇
关键词:
特征抽取偏最小二乘增量式学习数据降维大数据
结项摘要

In the age of big data, the rapid growth of data has posed a serious challenge to traditional machine learning technologies. How to make traditional machine learning models to adapt and handle vast amounts of data is one of the key problems of the big data analysis. As an effective multivariate data analysis technique, Partial least squares (PLS) model has a very important value in many application areas, especially in the fields of WEB text classification and biomedical data analysis. But traditional PLS model cannot meet the requirements of big data, since its scalability is obstructed by the high dimensional feature space and mass data samples. In order to solve this problem, the project mainly studies 1) the efficiency scalable PLS model on massive data based on the incremental learning technology, 2) boosting the performance of incremental PLS model on very high feature dimensional data by introducing feature selection into feature extraction model, and 3) improved incremental PLS models for some complex data, such as multiple dependent variables (multi-label) and nonlinear problems. The proposed models will significantly enhance the PLS algorithm scalable performance on big data, especially for the data mining problem on large-scale WEB text and biomedical data.

在大数据时代,数据量的急剧增长给传统机器学习技术带来了严峻挑战;如何让传统的机器学习模型能够适应并处理海量的数据是大数据时代机器学习研究的焦点之一。偏最小二乘(Partial Least Square, PLS)作为一种多元数据分析的有效技术,在WEB文本分类和生物医学数据分析等多个科学技术领域显示出别具特色的性能,值得深入研究;但传统PLS算法的可扩展性较差,不能适应大数据的要求。本项目主要从大数据同时具有高维特征和海量样本的特点入手,研究1)可增量式学习的PLS算法,解决海量样本的建模效率问题;2)利用特征选择技术提升增量式PLS算法在高维特征情况下的性能;3)针对多因变量(多标记)和非线性等复杂数据的特点,设计多因变量非线性的可扩展增量式PLS算法。新算法预期将明显提升PLS在大数据上的可扩展性能,提供WEB文本和生物医学等大规模数据挖掘的新方法。

项目摘要

随着数据采集技术的快速进步,传统机器学习技术越来越难以处理超大规模数据量的数据挖掘任务。针对这一问题;对传统机器学习模型进行改进以使之能够适应并处理海量的数据是当前机器学习领域研究的焦点之一。偏最小二乘(Partial Least Square, PLS)作为一种多元数据分析的有效技术,具有良好的数据分析性能能,值得深入研究。本项目主要从大数据同时具有高维特征和海量样本的特点入手,研究多因变量增量式偏最小二乘算法;开展的主要研究工作包括:1)提出了采用多因变量偏最小二乘方法和标记分布学习的人脸年龄估计算法,并对算法中的标记分布自适应问题进行了研究;2)研究了基于偏最小二乘数据降维的人脸年龄估计算法;3)设计了一种高效的块增量偏最小二乘算法;4)提出了一种基于邻近样本的可区分性的冗余特征检测算法;5)设计了改进的增量式主成份分析算法并将其应用于文本分类问题;6)提出了基于渐进抽样的机器学习模型与数据降维算法的自动优选方法。本项目提出的新算法和模型在高维特征空间情况下的大规模数据分析中表现出了优良的学习效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

DOI:10.7498/aps.67.20171903
发表时间:2018
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响

氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响

DOI:10.16606/j.cnki.issn0253-4320.2022.10.026
发表时间:2022
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

曾雪强的其他基金

批准号:61866017
批准年份:2018
资助金额:37.00
项目类别:地区科学基金项目
批准号:61105053
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于黎曼流形优化的深度偏最小二乘回归模型

批准号:61906175
批准年份:2019
负责人:陈浩然
学科分类:F0604
资助金额:24.00
项目类别:青年科学基金项目
2

基于偏最小二乘理论的结构可靠度分析代理模型方法

批准号:51308158
批准年份:2013
负责人:赵威
学科分类:E0804
资助金额:25.00
项目类别:青年科学基金项目
3

偏最小二乘路径模型在皮肤老化遗传分析中的构建与应用

批准号:31401061
批准年份:2014
负责人:彭倩倩
学科分类:C0605
资助金额:26.00
项目类别:青年科学基金项目
4

融合Softmax回归和偏最小二乘的中药数据分析方法研究

批准号:61562045
批准年份:2015
负责人:聂斌
学科分类:F0214
资助金额:38.00
项目类别:地区科学基金项目