基于大规模张量分解的超高维数据结构化表示与分析方法研究

基本信息
批准号:61602185
项目类别:青年科学基金项目
资助金额:21.00
负责人:谭明奎
学科分类:
依托单位:华南理工大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:王莉,姚丽娜,陈俊颖,韩超,国雍,吴汉瑞,胡志斌,郑灶旭
关键词:
超高维数据张量恢复流形优化快速张量分解张量表示
结项摘要

With the rapid growth of the social media and mobile Internet, large volumes of ultra-dimensional big data are emerging in various areas. How to effectively and efficiently represent the unstructured and complex ultrahigh-dimensional data in a structured and compressed manner is a crucial prerequisite, and still remains a challenge for big data analytics. This project aims to explore data representation and compression of complex big data using structured tensors, which will help to overcome the storage and computation bottleneck incurred by big data. To this end, by exploiting the nonlinear optimization techniques on matrix manifolds, we will investigate the sampling-based ultrahigh-dimensional Singular Value Decompositions (SVDs) that are involved in the large-scale high-order tensor decompositions. Via this scheme, both the storage and computation complexity of SVDs can be greatly reduced, and it will significantly speed up the tensor decomposition process. Based on this, we will investigate adaptive tensor representation for big matrices by exploiting sparse representation techniques. In this way, we can easily address the challenges in determining the order and sizes of the tensor to be constructed. Lastly, based on structured tensor representation models, we will study optimization methods on structured tensor manifolds, and apply them to big tensor recovery problems. This research is expected to enrich the theory of machine learning and data mining, and provide useful algorithms and techniques for big data analysis.

由于社交媒体和移动互联网发展,大规模超高维复杂数据出现于诸多场合。如何对非结构化的复杂超高维数据进行有效地结构化表示和压缩存储,是解决诸多大数据挑战的必要前提。本项目旨在探索和利用张量模型对超高维复杂数据进行结构化表示,以期大幅降低数据存储和后续计算复杂度。为此,本项目拟采用矩阵黎曼优化方法,研究基于数据采样的超高维矩阵低秩SVD分解,以解决大规模高阶张量分解中引入的超高维矩阵SVD分解问题,大幅降低张量分解算法的内存要求并有效提升张量分解速度。在此基础之上,研究基于稀疏表达的超高维矩阵自适应张量结构化表示,以解决张量阶数和大小难以确定的问题。基于张量结构化表示模型,本项目将研究基于结构张量流形的非线性优化算法,并将其应用于大规模张量恢复问题中。项目相关研究成果有望在一定程度上丰富机器学习和数据挖掘的相关理论研究,同时为大数据分析提供了一些算法和技术支持。

项目摘要

随着移动互联网科技和社交媒体的快速进步以及人类生活方式的不断智能化,现有大数据呈现多样性、动态性和超高维特性,导致了难以对非结构化的复杂超高维数据进行有效地结构化表示和压缩存储,并限制了诸多大数据算法的有效应用。本项目主要研究了快速高阶张量分解算法,针对大规模高阶张量分解中引入的超高维矩阵SVD分解问题,提出基于Stiefel 流形的非线性黎曼共扼梯度下降方法,通过交替更新子矩阵U和V,并在实现快速收敛速度的同时保留U的正交性,以解决非负矩阵分解问题,进而大幅降低数据存储和相关计算复杂度。基于稀疏表达的超高维矩阵自适应张量结构化表示,为解决张量阶数和大小难以确定的问题,课题组提出了一种稀疏的异构特征表示(SHFR)方法,通过探索HDA多个类别间的普遍潜在结构学习HDA的稀疏转换,提出了一种批处理模式追踪算法,有效解决了SHFR的非负LASSO问题,大大提高了LASSO 问题的求解速度,为稀疏重构在大规模数据上的应用提供了坚实的基础。基于张量结构化表示模型,本项目针对大规模矩阵缺失值恢复和填充问题,提出了基于矩阵黎曼流形的大规模矩阵优化恢复算法,通过逐步增加待恢复矩阵的秩并在固定秩的矩阵黎曼流形上优化核心子问题,因此每次只需要求解较小规模矩阵的矩阵流形优化问题,克服了传统算法需要多次进行复杂奇异值分解以及参数难以选取的缺点,有效提升了矩阵恢复速度和精度。本项目项目相关研究成果在一定程度上丰富机器学习和数据挖掘的相关理论研究,同时为大数据分析提供一些算法和技术支持,项目所提出的算法能广泛应用于大用户推荐系统、数据挖掘、机器视觉等领域。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

谭明奎的其他基金

相似国自然基金

1

基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究

批准号:61502059
批准年份:2015
负责人:刘昶
学科分类:F0605
资助金额:19.00
项目类别:青年科学基金项目
2

基于耦合张量分解的高维多被试复数fMRI数据分析

批准号:61901061
批准年份:2019
负责人:邝利丹
学科分类:F0111
资助金额:24.50
项目类别:青年科学基金项目
3

基于张量的结构化稀疏表示理论及多维信号复原方法研究

批准号:61906009
批准年份:2019
负责人:齐娜
学科分类:F0604
资助金额:24.00
项目类别:青年科学基金项目
4

大规模动态模态分解中的张量方法

批准号:11801479
批准年份:2018
负责人:丁维洋
学科分类:A0405
资助金额:22.00
项目类别:青年科学基金项目