High-dimensional big data contains more comprehensive information, however, since it is unable to provide visual perception, its meaning and value are latent. This project aims to establish an observable model of high-dimensional big data in the low dimensional space, and makes the data and information processing transparent, which would help to unite human’s ability of visual perception and the computer’s powerful processing ability and would help analysts detect information hidden behind the data. Therefore, the project has important theory significance and practical value. .Facing to the existing problems in previous work, the project proposes a stochastic neighbor embedding method based on Jensen-Shannon divergence (JS-SNE), using its symmetric constraint to improve the general performance on different data sets; and presents the implementation of JS-SNE algorithm based on multigrid technique, which is close to the linear complexity, in order to adapt to the expansion of data; for high-dimensional big data, the project uses a set compression tree based on learning and encoding for efficient space partitioning and nearest neighbor search, and accordingly develops a fast approach for computing graph geodesic distance in big data; finally, based on the application of 3D shape isometric embedding, the project develops a qualitative and quantitative benchmark for evaluating different low-dimensional embedding methods for visualizing high-dimensional big data.
高维大数据尽管蕴含了更丰富全面的信息,由于无法提供直观的视觉感知,其意义和价值都是潜隐的。本项目着重在低维空间建立高维大数据的观测模型,使数据和信息处理透明化,有利于结合人脑的视觉感知和计算机的处理能力,检测和分析隐藏在数据背后的有效信息,不仅具有理论意义而且具有重大的实用价值。.本项目针对已有研究中存在的问题,拟提出基于Jensen-Shannon散度的随机近邻嵌入方法(JS-SNE),利用该散度的对称性约束改善随机近邻嵌入方法在不同数据集上的偏向性;拟提出基于多重网格技术的JS-SNE算法实现,使其具有接近线性的计算复杂度,以适应数据规模的扩大;面向高维大数据,拟利用基于学习和编码的集压缩树方法进行高效的空间划分和近邻搜索,并据此发展面向大数据的图测地距离快速计算方法;最后,拟借助三维形体的等距嵌入应用,提供一个可定性和定量评价高维数据低维嵌入和可视化方法的基准测试平台。
本项目试图在低维空间建立高维大数据的观测模型,使数据和信息处理透明化,有利于结合人脑的视觉感知和计算机的处理能力,检测和分析隐藏在数据背后的有效信息。研究了基于Jensen-Shannon 散度的随机近邻嵌入方法(JS-SNE)。提出了基于图距离近邻网的相似概率重构方法,使得在低维嵌入时能更好地保持高维的结构,有益于高维数据集的低维嵌入和可视化。提出了有效的高维数据的可视化方法,包括:基于ANNOY算法的快速近邻搜索算法、基于近邻关系与类别信息的概率重构算法、基于P-BGLL的可视化算法、基于Feature-Net的可视化算法。基于正常人眼底视网膜图像的大数据集合,研究了视网膜眼底图像中各类异常的智能检测方法。在三维图像数据的可视化方面,针对图像中属性相似的结构难以分离的难题,提出了改进的图像分类算法。本项目的研究结果不仅具有理论意义而且具有重要实用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于VR-GIS的城市噪声监测数据三维分析模型及可视化评价研究
基于量子进化算法和模型组合的高维数据特征选择
基于结构组稀疏算法的多尺度高维数据变量筛选及预测模型研究
大数据条件下的最小散度波束形成:理论、高效算法和应用