基于增量式学习的可扩展偏最小二乘模型的研究

基本信息

批准号：61463033

项目类别：地区科学基金项目

资助金额：44.00

负责人：曾雪强

学科分类：

依托单位：南昌大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：李文,陈炼,公慧玲,吴灵芝,吴舒霞,黄志超,刘丽娇

关键词：

特征抽取偏最小二乘增量式学习数据降维大数据

结项摘要

In the age of big data, the rapid growth of data has posed a serious challenge to traditional machine learning technologies. How to make traditional machine learning models to adapt and handle vast amounts of data is one of the key problems of the big data analysis. As an effective multivariate data analysis technique, Partial least squares (PLS) model has a very important value in many application areas, especially in the fields of WEB text classification and biomedical data analysis. But traditional PLS model cannot meet the requirements of big data, since its scalability is obstructed by the high dimensional feature space and mass data samples. In order to solve this problem, the project mainly studies 1) the efficiency scalable PLS model on massive data based on the incremental learning technology, 2) boosting the performance of incremental PLS model on very high feature dimensional data by introducing feature selection into feature extraction model, and 3) improved incremental PLS models for some complex data, such as multiple dependent variables (multi-label) and nonlinear problems. The proposed models will significantly enhance the PLS algorithm scalable performance on big data, especially for the data mining problem on large-scale WEB text and biomedical data.

在大数据时代，数据量的急剧增长给传统机器学习技术带来了严峻挑战；如何让传统的机器学习模型能够适应并处理海量的数据是大数据时代机器学习研究的焦点之一。偏最小二乘（Partial Least Square, PLS）作为一种多元数据分析的有效技术，在WEB文本分类和生物医学数据分析等多个科学技术领域显示出别具特色的性能，值得深入研究；但传统PLS算法的可扩展性较差，不能适应大数据的要求。本项目主要从大数据同时具有高维特征和海量样本的特点入手，研究1）可增量式学习的PLS算法，解决海量样本的建模效率问题；2）利用特征选择技术提升增量式PLS算法在高维特征情况下的性能；3）针对多因变量（多标记）和非线性等复杂数据的特点，设计多因变量非线性的可扩展增量式PLS算法。新算法预期将明显提升PLS在大数据上的可扩展性能，提供WEB文本和生物医学等大规模数据挖掘的新方法。

项目摘要

随着数据采集技术的快速进步，传统机器学习技术越来越难以处理超大规模数据量的数据挖掘任务。针对这一问题；对传统机器学习模型进行改进以使之能够适应并处理海量的数据是当前机器学习领域研究的焦点之一。偏最小二乘（Partial Least Square, PLS）作为一种多元数据分析的有效技术，具有良好的数据分析性能能，值得深入研究。本项目主要从大数据同时具有高维特征和海量样本的特点入手，研究多因变量增量式偏最小二乘算法；开展的主要研究工作包括：1）提出了采用多因变量偏最小二乘方法和标记分布学习的人脸年龄估计算法，并对算法中的标记分布自适应问题进行了研究；2）研究了基于偏最小二乘数据降维的人脸年龄估计算法；3）设计了一种高效的块增量偏最小二乘算法；4）提出了一种基于邻近样本的可区分性的冗余特征检测算法；5）设计了改进的增量式主成份分析算法并将其应用于文本分类问题；6）提出了基于渐进抽样的机器学习模型与数据降维算法的自动优选方法。本项目提出的新算法和模型在高维特征空间情况下的大规模数据分析中表现出了优良的学习效果。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

曾雪强的其他基金

批准号：61866017

批准年份：2018

资助金额：37.00

项目类别：地区科学基金项目

批准号：61105053

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

相似国自然基金

基于黎曼流形优化的深度偏最小二乘回归模型

批准号：61906175

批准年份：2019

负责人：陈浩然

学科分类：F0604

资助金额：24.00

项目类别：青年科学基金项目

基于偏最小二乘理论的结构可靠度分析代理模型方法

批准号：51308158

批准年份：2013

负责人：赵威

学科分类：E0804

资助金额：25.00

项目类别：青年科学基金项目

偏最小二乘路径模型在皮肤老化遗传分析中的构建与应用

批准号：31401061

批准年份：2014

负责人：彭倩倩

学科分类：C0605

资助金额：26.00

项目类别：青年科学基金项目

融合Softmax回归和偏最小二乘的中药数据分析方法研究

批准号：61562045

批准年份：2015

负责人：聂斌

学科分类：F0214

资助金额：38.00

项目类别：地区科学基金项目

基于增量式学习的可扩展偏最小二乘模型的研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

一种基于多层设计空间缩减策略的近似高维优化方法

"多对多"模式下GEO卫星在轨加注任务规划

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

曾雪强的其他基金

基于渐进抽样的学习模型选择方法的研究

流数据特征抽取技术的研究

相似国自然基金