When learning and classifying large-scale complex data such as images,web pages and videos, the traditional classification approaches such as subspace learning approaches usually do not achieve the desirable classification performance. One of the very important reasons why these approaches do not obtain the good results is that their learning procedures are not well-directed and purposeful. As a result, these traditinonal approaches can not effectively learning the structure of the large-scale complex data..In order to deal well with and effecively learn the large-scale complex data,this study tries to propose a novel learning framework,i.e.,individualized learning. Its basic idea is that for different test samples, idividualized learning uses different models or different training samples to learn and classify them.Indeed,the boundaries among different classes are often highly non-linear in the large scale complex and heterogeneous data. The individualized learning this study will propose aims to find these boundaries as precisely as possible, and perform correct classification. On the contrary, the traditional methods can hardly achieve this goal. The individualized learning in this study combines the theories of the local discriminant analysis, ensemble learning and sparse representation learning and so on. Furthermore, the individualized learning will do a more in-depth study on their learning mechanisms. For each test sample, the proposed approach can find an optimal learning strategy. Thus, this study can obtain a novel learning framework.. If this study is carried out successfully, it will greatly enrich the basic theory of pattern recognition and machine learning.
在对大规模复杂数据如图像、网页和视频分类学习时,传统的分类学习方法如子空间学习处理这些数据时往往效果不佳。其中一个重要原因是传统的分类学习方法针对性不强,它们不能有效学习大规模复杂数据的结构。.为有效处理和学习这些大规模复杂数据,本研究尝试提出一种新颖的学习框架:个性化学习。它的基本思想是,针对不同的测试样本,采取不同的模型或不同的训练样本学习并分类。由于在大规模复杂异构数据中,不同类别之间的边界大都是高度非线性的,本研究拟提出的个性化分类学习的一个主要目的就是尽可能准确地找到这些边界,来达到正确分类,这是传统的学习方法较难实现的。本研究的个性化学习结合局部鉴别分析、集成学习和稀疏表示分类等理论,对它们的学习机制进行深入研究;对每个测试样本,寻找一个最优的学习策略,从而得到一个全新的学习框架。本研究的成功开展,将会大大丰富机器学习和模式识别的基础理论。
本项目主要针对经典机器学习方法尤其是特征抽取方法的不足及其相应的改进做了大量探索。经典的特征抽取方法如线性鉴别分析常把所有的测试样本同一对待,为它们建立统一的全局学习模型。这种学习模式的学习针对性不强,不能为每个测试样本建立有效的学习模型。. 本研究项目主要为了克服传统方法的不足,在大规模数据集上,考虑每个测试样本的分布特点,为其提出个性化的学习方案。经过约四年的研究探索,提出了多个学习算法,如基于个性化学习的核Fisher鉴别分析,基于L0范数的稀疏学习分类方法,局部最小均方误差分类算法,主成分分析中的特征集成方法和快速核稀疏表示等等,这些方法都是基于严格的理论分析提出的。在这些算法中,成功引入了多个概念及相关理论,如个性化学习中可以普遍采用的学习区域,半遗传算法,用于特征选择与集成的机器元胞与特征的伪识别率和矩阵的通用熵等等,这些概念及相关理论大大丰富了机器学习中特征抽取等分支的理论,为后续的研究打下良好的基础。 . 而且,本研究团队也利用大量实验在多个大规模数据集上验证了所提方法的有效性。本项目所提的一部分算法是提高经典学习方法的分类或识别效果,另一部分算法的目的是提高经典学习方法的计算效率,所提的新方法比原方法的计算效率高一到两个数量级,大大拓展了经典方法的实用性,经改进的方法可以用于实时应用场合。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
大规模数据小标注样本量下的大间隔深度表示学习分类方法研究
面向大规模多步学习问题的学习分类元系统技术研究
面向大规模数据的多示例学习
大规模异构数据匹配的距离度量学习