In the age of big data, the rapid growth of data has posed a serious challenge to traditional machine learning technologies. How to make traditional machine learning models to adapt and handle vast amounts of data is one of the key problems of the big data analysis. As an effective multivariate data analysis technique, Partial least squares (PLS) model has a very important value in many application areas, especially in the fields of WEB text classification and biomedical data analysis. But traditional PLS model cannot meet the requirements of big data, since its scalability is obstructed by the high dimensional feature space and mass data samples. In order to solve this problem, the project mainly studies 1) the efficiency scalable PLS model on massive data based on the incremental learning technology, 2) boosting the performance of incremental PLS model on very high feature dimensional data by introducing feature selection into feature extraction model, and 3) improved incremental PLS models for some complex data, such as multiple dependent variables (multi-label) and nonlinear problems. The proposed models will significantly enhance the PLS algorithm scalable performance on big data, especially for the data mining problem on large-scale WEB text and biomedical data.
在大数据时代,数据量的急剧增长给传统机器学习技术带来了严峻挑战;如何让传统的机器学习模型能够适应并处理海量的数据是大数据时代机器学习研究的焦点之一。偏最小二乘(Partial Least Square, PLS)作为一种多元数据分析的有效技术,在WEB文本分类和生物医学数据分析等多个科学技术领域显示出别具特色的性能,值得深入研究;但传统PLS算法的可扩展性较差,不能适应大数据的要求。本项目主要从大数据同时具有高维特征和海量样本的特点入手,研究1)可增量式学习的PLS算法,解决海量样本的建模效率问题;2)利用特征选择技术提升增量式PLS算法在高维特征情况下的性能;3)针对多因变量(多标记)和非线性等复杂数据的特点,设计多因变量非线性的可扩展增量式PLS算法。新算法预期将明显提升PLS在大数据上的可扩展性能,提供WEB文本和生物医学等大规模数据挖掘的新方法。
随着数据采集技术的快速进步,传统机器学习技术越来越难以处理超大规模数据量的数据挖掘任务。针对这一问题;对传统机器学习模型进行改进以使之能够适应并处理海量的数据是当前机器学习领域研究的焦点之一。偏最小二乘(Partial Least Square, PLS)作为一种多元数据分析的有效技术,具有良好的数据分析性能能,值得深入研究。本项目主要从大数据同时具有高维特征和海量样本的特点入手,研究多因变量增量式偏最小二乘算法;开展的主要研究工作包括:1)提出了采用多因变量偏最小二乘方法和标记分布学习的人脸年龄估计算法,并对算法中的标记分布自适应问题进行了研究;2)研究了基于偏最小二乘数据降维的人脸年龄估计算法;3)设计了一种高效的块增量偏最小二乘算法;4)提出了一种基于邻近样本的可区分性的冗余特征检测算法;5)设计了改进的增量式主成份分析算法并将其应用于文本分类问题;6)提出了基于渐进抽样的机器学习模型与数据降维算法的自动优选方法。本项目提出的新算法和模型在高维特征空间情况下的大规模数据分析中表现出了优良的学习效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于黎曼流形优化的深度偏最小二乘回归模型
基于偏最小二乘理论的结构可靠度分析代理模型方法
偏最小二乘路径模型在皮肤老化遗传分析中的构建与应用
融合Softmax回归和偏最小二乘的中药数据分析方法研究