Big data representation is a critical step in the big data analysis. As we known, sparse representation and low-rank representation are two major data representation paradigms. Due to the increasing inherent complexity of big data, linear representation is no longer sufficient to obtain its high-level features. Recently, deep neural networks have obtained great success to represent data in a nonlinear and sparse manner. Low-rank representation imposes greater challenges than sparse representation in terms of math. At present, there is little research on deriving nonlinear low-rank representation of data by using deep neural networks. This project will be dedicated to develop a new nonlinear low-rank big data representation approach based on deep neural networks. This project aims to learn nonlinear low-rank features from data by using deep neural networks. In particular, this project will first develop a new denoising autoencoder to obtain a nonlinear low-rank representation of data, then propose the cooperation and competition mechanism among hidden layers. The project will further extend the low-rank representation method of unlabeled data based on the available representation structure that already derived from labelled data. All proposed algorithms will be thoroughly verified on classification or recognition tasks on open big datasets. This research outcome of this project will promote the development of big data analysis from both empirical and theoretical aspects.
大数据表示是大数据分析最核心的环节之一。众所周知,稀疏表示和低秩表示是数据线性表示的两大著名数据表示方法。面对日益复杂的大数据,线性表示难以获得数据深层次的本质特征。近年来,深度神经网络在数据非线性稀疏表示中取得了不少重要成果。相对于稀疏表示,低秩表示在数学上更具一定的难度。目前,对数据非线性低秩表示神经网络方法的研究尚处于起步阶段,相关研究成果较少。本项目研究数据非线性低秩表示的深度神经网络方法,旨在探索一条用深度神经网络表达数据非线性深度低秩特征的途径。本项目的研究内容包括:研究低秩去噪自编码模型,力争获取有效的数据非线性低秩表示方式;探索深度神经网络模型层内结构,研究层内数据表示的协作与竞争机制;利用有标签数据的低秩结构,研究无标签数据低秩表示方法。由此产生的研究成果将在一些特定大数据分类与识别任务上测试验证。本项目的研究将对进一步推动大数据分析的发展具有重要的科学意义和实用价值。
大数据表示是大数据分析重要步骤之一。在该项目中,我们提出了多种大数据低秩表示算法。此外,我们将其与深度学习结合,构建了基于低秩表示的深度神经网络。首先,我们提出了一种具有对称约束的低秩表示算法用于子空间聚类。该算法通过给定一个来自多个子空间构成的数据点集合,恢复每个数据点所在的子空间维度并计算数据点之间的关系。对称的低秩表示条件保留了高维数据的子空间结构,并可以通过解决凸优化问题来进行计算。对称条件保证了每一对数据点关系权重的一致性,从而可以将处于同一子空间的数据点划分到一起。此外,通过利用对称低秩表示的主成方向的角度信息来获得相似图矩阵并作为谱聚类的输入,这是计算数据点之间的相似度关系的关键步骤。然后,我们提出了一种对称低秩保留投影框架,该框架将对称约束和局部正则化纳入子空间学习的低秩表示学习中。在此框架下,我们提出的两种算法都分别通过结合流形和稀疏性调整有效地利用了局部流形和几何结构。结合图嵌入技术,转换矩阵有效地保留了高维数据的低维结构特征。再次,我们对多视图子空间聚类展开了进一步的研究。我们提出了一种多视图低秩表示算法对多视图子空间聚类。首先,它采用对称低秩表示模型刻画多视图的多样性。同其次,它还通过低秩表示之间的相似性来衡量多视图的一致性。最后,我们提出了对称低秩表示的融合策略。我们将低秩表示与深度学习结合,提出了一种基于双向时间卷积网络的情感分析模型,用于中文文本情感分类。实验结果表示,这些算法与传统的子空间聚类算法相比,具有更好的鲁棒性与有效性。这些研究成果进一步推动了对大数据表示的探索,为大数据分析提供了重要的理论支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
数据表达的低秩约束深度神经网络方法
基于低秩表示的图像视频编码方法研究
稀疏低秩表示优化理论与新方法研究
基于低秩表示理论的图像识别方法研究