Multivariate time series is one of the most primary research objects in the field of data mining, while feature representation and similarity measure for time series are the basic and important work in the tasks of multivariate time series data mining. Their qualities often directly impact the performance and effects of the algorithms used in time series data mining. Firstly, the project adopts principal component analysis and independent component analysis to realize the feature extraction and similarity measure for multivariate time series, which address the issues on the inaccuracy of feature representation and similarity measure caused by curse of dimensionality and information redundancy. The relationships existed in multivariate time series data are analyzed from the whole and the part. Secondly, to deepen and expand the application performance of symbolic representation methods in multivariate time series, some problems, such as how to transform multivariate time series into univariate time series and how to construct the symbolization model and similarity measure methods, are to be resolved respectively by the time warping method and non-time warping method. In addition, we also discuss how to combine the corresponding feature representation to design similarity measure functions which satisfy lower bound on the true distance. The feasibility of research results are testified through analyzing the multivariate time series simulation data and financial data, and the new theory and novel methods for the research of feature representation and similarity measure in multivariate time series data mining is provided.
多元时间序列是数据挖掘领域中主要研究的数据对象之一,而特征表示和相似性度量是多元时间序列数据挖掘任务中基础又重要的工作,其质量优劣直接影响后期挖掘算法的性能和效果。首先,本课题拟采用主成分分析和独立成分分析对多元时间序列数据实现特征提取和相似性度量,解决维灾和信息冗余带来特征表示和相似性度量不准确的问题,从整体和局部视角剖析多元时间序列数据内部之间的关系。其次,为了深化和拓展符号表示方法在多元时间序列数据挖掘中的应用性能,探讨如何从时间弯曲和非时间弯曲来有效地解决多元时间序列向一元时间序列转换、构建合适的符号转化模型和相似性度量方法等问题。此外,为避免度量方法在相似性搜索应用中发生漏报情况,探讨如何结合相应的特征表示方法构造满足真实距离下界性的度量函数。通过多元时间序列仿真数据和实际金融数据分析为背景验证研究成果的可行性,为多元时序数据挖掘中的特征表示和相似性度量研究提供了新的理论和方法。
多元时间序列是大数据时代背景下较为常见而又复杂的一种类型数据,利用数据挖掘方法能够从中发现有用的模式与知识,但是其数据的高维性给基于距离度量的数据挖掘方法带来了麻烦。为此本项目从以下几个方面展开了研究并取得了成效:(1)基于主成分分析的多元时间序列数据特征表示与相似生度量研究。首先,利用主成分分析对多元时间序列进行特征分解,通过度量正交坐标系之间的相似性来反映原始多元时间序列的差异,克服了传统方法的局限性。其次,使用共同主成分分析方法对每个簇进行数据降维和特征空间构建,将测试集中的多元时间序列对每个特征空间进行投影变换,找出某个特征空间产生的主成分具有最大方差,实现较为准确的多元时间序列分类。另外,从多元时间序列变量相关性的角度出发, 通过构建综合协方差矩阵来共同反映原始数据集中各多元时间序列之间的关系。(2)多元时间序列符号化特征表示与相似性度量研究。将多元时间序列转化为一元综合属性序列,使得传统符号化表示方法能够对多元时间序列进行特征表示,并设计了相应的距离度量方法,提升了多元时间序列的相似性检索性能。在一元综合属性转化过程中,提出基于非时间弯曲的和基于时间弯曲的多元时间序列相似性度量方法,着重考虑了多元时间序列异步相关性的问题,提高了主成分分析在多元时间序列数据挖掘中应用效果。(3) 高性能动态时间弯曲方法的多元时间序列相似性研究。为了解决传统动态时间弯曲方法计算高时间复杂度、估计距离函数下界性和流数据动态计算等问题,分别提出了精确快速、下界紧凑性高和在线计算动态时间弯曲的相关方法,不仅提升了传统方法的计算效率,还能够结合前期的特征表示方法提高基于动态时间弯曲距离度量的多元时间序列数据挖掘效率和质量。项目研究成果还仅能够有效地实现多元时间序列的数据降维和相似性度量,还有助于提升多元时间序列数据挖掘任务的分析质量,包括多元时间序列的聚类、分类、模式发现和关联分析等。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于细粒度词表示的命名实体识别研究
基于分形维数和支持向量机的串联电弧故障诊断方法
基于二维材料的自旋-轨道矩研究进展
多元时间序列相似模式挖掘中支持DTW距离度量的子序列搜索方法研究
基于深度层次特征相似性度量的视觉跟踪方法研究
面向信息检索和基于特征的GML文档间空间相似性综合度量方法研究
空间数据几何相似性度量模型研究