面向大数据智能处理的随机矩阵与张量算法研究

基本信息
批准号:61872206
项目类别:面上项目
资助金额:65.00
负责人:喻文健
学科分类:
依托单位:清华大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:宋明烨,冯栩,杨明,刘盛华,冯文杰,周斌
关键词:
流数据深度学习张量计算主成分分析随机矩阵算法
结项摘要

The development of artificial intelligence requires algorithm research. Facing the volume and variety challenges of big data, we need intelligent processing and analytic algorithms with better scalability and higher efficiency. The randomized matrix algorithm based on the idea of randomization requires fewer passes over data, has high runtime efficiency, and is easy to be parallelized. Therefore, it is suitable for computational tasks like the low-rank approximation and principal component analysis (PCA) of big data. The tensor with higher order also attracts a lot of attention due to its strong expression ability to actual data and diverse decomposition forms. In this project, we propose to investigate highly efficient techniques of PCA and low-rank/sparse data approximation, with controllable error as well, for the processing and analytics of big data. We will make them stand upon the theoretic research on randomized matrix algorithms, tensor related algorithms, and the collaboration of the both. The results of our investigation will be applied to various streaming data, sparse data and high-dimensional data, to give rise to efficient and practical algorithms for community discovery, fraud detection, information recommendation, and the compression and acceleration of deep neural networks. We plan to investigate the following contents: 1) Fast PCA algorithms for streaming data and sparse data, and their applications to community discovery, fraud detection, and other problems. 2) Efficient data representation and decomposition algorithms for high-order tensors. 3) The low-rank and sparse approximation of matrix/tensor and their applications to recommender system, the compression and acceleration of deep neural networks, and other problems. At the same time, we will investigate the efficient parallelization of the relevant algorithms, and push forward the application of the proposed techniques to actual industrial scenarios.

人工智能的发展需要算法研究。面对大数据的巨大规模和多样性,需要扩展性强、效率高的智能处理与分析算法。基于随机化思想的随机矩阵算法对数据遍历次数少、计算效率高、易于并行,适合于大数据的低秩近似与主成分分析等计算,而更高阶的张量由于其对实际数据的表达能力和多样的分解形式也受到关注。本项目基于随机矩阵算法与张量算法、以及两者结合的理论研究,从主成分分析、低秩与稀疏近似等方面着手,希望提出误差可控、计算效率高的大数据分析与处理技术,应用于各种流数据、稀疏数据和高维数据上,得到有效的社区发现、欺诈检测、信息推荐、及深度神经网络压缩加速等实用算法。课题主要包括如下研究内容:1) 针对流数据和稀疏数据的快速主成分分析及其应用;2) 高阶张量数据表示与分解算法;3) 矩阵/张量的低秩、稀疏近似及其在推荐系统和深度神经网络压缩等方面的应用。在研究中同时注重算法的并行化实现,并推动它们在实际企业中的应用。

项目摘要

本项目针对来自不同领域的大数据/大计算问题,研究扩展性强、效率高的随机化矩阵计算以及张量分解与处理算法,推动它们在大数据智能处理等重要场景中的应用。主要研究内容与取得的重要结果如下:1)研究了随机化矩阵分解算法适应固定精度分解、流数据、核外计算、稀疏数据的技术,提出了快速主成分分析与降维算法,显著提升了大规模数据补全推荐与网络嵌入的计算效率。2)提出了张量火车分解的快速算法并应用于张量数据补全中,提出了多个流式张量数据的建模与欺诈检测算法,在可扩展性与性能上有优势。3)对大规模流数据、图数据、稠密数据的智能处理与压缩进行了研究,提出日志流数据top-K分析、稠密子图检测、以及稠密数据压缩的新方法,计算复杂度与压缩率优于现有方法。4)针对物理仿真问题研究蒙特卡洛方法的完善与加速,提出求解波动方程的快速算法,以及处理真实互连结构的随机行走电容提取算法与预刻画数据压缩技术。.项目组共发表32篇论文,包括18篇期刊论文与14篇国际会议论文(CCF-A类论文10篇),有14篇论文发表在SCI检索的国际著名期刊上,会议论文发表在AAAI、PKDD、SDM、DATE、PAKDD和ICTAI等著名国际会议上。基于项目成果,我们申请了4项国家发明专利,其中两项已授权。此外,还在Springer公司出版英文专著一部。发表的论文曾获ICTAI'2019和PKDD'2020这两个国际会议的最佳学生论文奖。项目成果推动了随机化矩阵分解算法与应用的研究,在MATLAB软件中得到应用并获得国际认可。部分项目成果具有应用潜力,目前正与国内有关公司合作,争取将成果应用于金融交易风险预测与集成电路设计仿真软件中。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

喻文健的其他基金

批准号:60401010
批准年份:2004
资助金额:20.00
项目类别:青年科学基金项目
批准号:61076034
批准年份:2010
资助金额:33.00
项目类别:面上项目

相似国自然基金

1

面向大数据的张量分解理论及随机化算法研究

批准号:61673124
批准年份:2016
负责人:周郭许
学科分类:F0605
资助金额:63.00
项目类别:面上项目
2

大数据处理中的约束张量逼近及其有效算法研究

批准号:11561015
批准年份:2015
负责人:段雪峰
学科分类:A0502
资助金额:35.00
项目类别:地区科学基金项目
3

面向多视角多标签数据的支持张量机分类算法研究

批准号:61472089
批准年份:2014
负责人:郝志峰
学科分类:F0605
资助金额:86.00
项目类别:面上项目
4

面向张量数据的图学习与嵌入

批准号:61402215
批准年份:2014
负责人:张丽梅
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目