In the applications of trajectory data mining, structural representation of unstructured trajectory data is a novel research area. Structural representations of trajectory data make it possible to adopt general data mining algorithms, which brings both effectiveness and efficiency to trajectory data mining tasks. There are some existing works on structural representation. For example, unstructured documents can be represented into fixed-dimension vectors in text mining field. However, the data handled is quite different from the trajectory data, which makes it hard to adopt those existing approaches. In this project, according to the data characteristics w.r.t. different data mining tasks, we first categorize the trajectory data into three classes, i.e., spatiotemporal, topological and semantic. Aiming at the data characteristics in each category, we then specifically design each model to represent the trajectory by a fixed-dimension vector or tensor. Because it is a structural representation, data mining task can now be independent on the feature representation. Meanwhile since the time complexity of the measure computation in vector space is quite small, the computation cost will also be largely reduced when mining large volume trajectory data.
在轨迹数据挖掘的应用中,非结构化轨迹数据的结构化表示是一个崭新的研究问题;在对轨迹进行结构化后,可以运用通用的数据挖掘算法,从而更高效地挖掘轨迹数据。已有的非结构化数据的结构化表示的技术,如文本挖掘领域,其研究对象与轨迹的特性具有很大的区别,使得已有技术无法在轨迹数据中起到效果。本项目根据轨迹数据挖掘所需要的信息特征将轨迹数据的表示归纳为三类:时空表示、拓扑表示和语义表示。针对每一类表示对应的数据挖掘任务,分别设计相应的方法将轨迹表示成固定维度的特征向量或张量,作为一种规范化的特征表示,实现特征表示与挖掘任务的职责分离;同时结构化向量空间中的度量计算代价很小,可大大降低海量轨迹数据挖掘的计算开销。
将非结构化的原始轨迹数据进行结构化表示是轨迹数据挖掘领域一个崭新的研究方向。在对轨迹进行结构化后,可以运用通用的机器学习算法进行更高效地数据分析和预测。本课题对轨迹数据所具有的信息特征进行归纳,针对不同的任务场景和问题需求设计了对应的轨迹表示方法,具体可以分为时空表示、拓扑表示和语义表示。这些轨迹表示方法可以将轨迹转化成固定维度的向量或者张量,作为轨迹的一种规范化的特征表示,从而广泛适用于各类下游应用和模型输入中。具体包括:(1)在轨迹的时空表示上,我们提出了一个新颖的轨迹表示方法,通过神经网络将轨迹映射到向量空间,并约束向量保持轨迹间的距离关系,最终在真实轨迹数据集上相较于已有工作提升了10%的准确率。我们还提出了多源轨迹表示模型。它通过多源数据融合和多尺度的卷积神经网络提取多层次的轨迹特征,得到丰富全面的轨迹信息表示。在真实数据上的地图生成实验显示,我们的方法可以提升5%以上的准确率。(2)在轨迹的拓扑表示上,我们提出了基于双向长短时记忆网络的轨迹表示模型,用于捕捉轨迹的整体拓扑特征。在行程时间估计问题上,我们的方法在真实数据集上可以将预估误差控制在13.3%,远好于其他已有工作。(3)在轨迹的语义表示上,我们提出了城市语义图谱模型,得到表示时空语义特征的轨迹张量,有效刻画了群体的出行模式。我们在上海市千万级别数据集中提取出了四千余条具有出行语义的群体迁移模式。本项目以如何将非结构化的轨迹数据有效结构化表示这一关键科学问题为研究对象,从时空、拓扑和语义三个角度完备地探索了结构化表示形式,并且各自提出了针对性的崭新技术方案。本项目的研究拓宽了轨迹的表示形式,提供了简洁统一的结构化表示,并且丰富了轨迹数据在数据科学领域的应用。.项目期间,录用和发表CCF A类论文9篇。培养博士生2名,硕士生7名,一篇博士学位论文获上海市计算机学会优秀博士学位论文、ACM China Council SIGMOD Chapter Doctoral Dissertation Award 和ACM China Council SIGSPATIAL Chapter Doctoral Dissertation Award。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向时空轨迹数据异常和关联模式的挖掘模型
面向轨迹大数据的语义标注与语义模式挖掘算法研究
时空轨迹数据挖掘及其隐私保护方法研究
面向电信海量数据的群体关系数据挖掘研究