In the applications of trajectory data mining, structural representation of unstructured trajectory data is a novel research area. Structural representations of trajectory data make it possible to adopt general data mining algorithms, which brings both effectiveness and efficiency to trajectory data mining tasks. There are some existing works on structural representation. For example, unstructured documents can be represented into fixed-dimension vectors in text mining field. However, the data handled is quite different from the trajectory data, which makes it hard to adopt those existing approaches. In this project, according to the data characteristics w.r.t. different data mining tasks, we first categorize the trajectory data into three classes, i.e., spatiotemporal, topological and semantic. Aiming at the data characteristics in each category, we then specifically design each model to represent the trajectory by a fixed-dimension vector or tensor. Because it is a structural representation, data mining task can now be independent on the feature representation. Meanwhile since the time complexity of the measure computation in vector space is quite small, the computation cost will also be largely reduced when mining large volume trajectory data.
在轨迹数据挖掘的应用中,非结构化轨迹数据的结构化表示是一个崭新的研究问题;在对轨迹进行结构化后,可以运用通用的数据挖掘算法,从而更高效地挖掘轨迹数据。已有的非结构化数据的结构化表示的技术,如文本挖掘领域,其研究对象与轨迹的特性具有很大的区别,使得已有技术无法在轨迹数据中起到效果。本项目根据轨迹数据挖掘所需要的信息特征将轨迹数据的表示归纳为三类:时空表示、拓扑表示和语义表示。针对每一类表示对应的数据挖掘任务,分别设计相应的方法将轨迹表示成固定维度的特征向量或张量,作为一种规范化的特征表示,实现特征表示与挖掘任务的职责分离;同时结构化向量空间中的度量计算代价很小,可大大降低海量轨迹数据挖掘的计算开销。
将非结构化的原始轨迹数据进行结构化表示是轨迹数据挖掘领域一个崭新的研究方向。在对轨迹进行结构化后,可以运用通用的机器学习算法进行更高效地数据分析和预测。本课题对轨迹数据所具有的信息特征进行归纳,针对不同的任务场景和问题需求设计了对应的轨迹表示方法,具体可以分为时空表示、拓扑表示和语义表示。这些轨迹表示方法可以将轨迹转化成固定维度的向量或者张量,作为轨迹的一种规范化的特征表示,从而广泛适用于各类下游应用和模型输入中。具体包括:(1)在轨迹的时空表示上,我们提出了一个新颖的轨迹表示方法,通过神经网络将轨迹映射到向量空间,并约束向量保持轨迹间的距离关系,最终在真实轨迹数据集上相较于已有工作提升了10%的准确率。我们还提出了多源轨迹表示模型。它通过多源数据融合和多尺度的卷积神经网络提取多层次的轨迹特征,得到丰富全面的轨迹信息表示。在真实数据上的地图生成实验显示,我们的方法可以提升5%以上的准确率。(2)在轨迹的拓扑表示上,我们提出了基于双向长短时记忆网络的轨迹表示模型,用于捕捉轨迹的整体拓扑特征。在行程时间估计问题上,我们的方法在真实数据集上可以将预估误差控制在13.3%,远好于其他已有工作。(3)在轨迹的语义表示上,我们提出了城市语义图谱模型,得到表示时空语义特征的轨迹张量,有效刻画了群体的出行模式。我们在上海市千万级别数据集中提取出了四千余条具有出行语义的群体迁移模式。本项目以如何将非结构化的轨迹数据有效结构化表示这一关键科学问题为研究对象,从时空、拓扑和语义三个角度完备地探索了结构化表示形式,并且各自提出了针对性的崭新技术方案。本项目的研究拓宽了轨迹的表示形式,提供了简洁统一的结构化表示,并且丰富了轨迹数据在数据科学领域的应用。.项目期间,录用和发表CCF A类论文9篇。培养博士生2名,硕士生7名,一篇博士学位论文获上海市计算机学会优秀博士学位论文、ACM China Council SIGMOD Chapter Doctoral Dissertation Award 和ACM China Council SIGSPATIAL Chapter Doctoral Dissertation Award。
{{i.achievement_title}}
数据更新时间:2023-05-31
智能煤矿建设路线与工程实践
东太平洋红藻诊断色素浓度的卫星遥感研究
长白山苔原带土壤温度与肥力随海拔的变化特征
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络
基于PROSAIL模型和多角度遥感数据的森林叶面积指数反演
面向时空轨迹数据异常和关联模式的挖掘模型
面向轨迹大数据的语义标注与语义模式挖掘算法研究
时空轨迹数据挖掘及其隐私保护方法研究
面向电信海量数据的群体关系数据挖掘研究