With the growing capability of data collection, there is a rapid increase of the scale of data with complex spatial and temporal dependence structures.Statistical anaysis is thus very challenging. By using recent theories and techniques in spatial statistics, functional data analysis, stochastic process and dimension reduction, this project aims to develop new statistical modelling frameworks for massive spatiotemporal data. We will focus on several fundamental issues in spatiotemporal analysis, such as ‘statistical inferences for space-time structures’, ‘hierarchical models and parameter estimations’ and ‘extensions of dynamic models and data fusion’. In particular, we will mainly investigate testing methods of the separability of space-time random fields, develop new static models and data fusion procedures, and extend them to dynamic versions so that the error in nonlinear dynamic systems can be better controlled. Moreover, we will apply our new models on multiple air pollutants data that have been collected all over China since year 2013. Through making dynamic pollution maps and improving forecasting powers of heavy pollutions, the application will provide us more statistical insights in the diffusion and transport mechanisms of air pollutants.
随着数据采集技术的进步,具有时间和空间属性的数据规模增长极快,同时其自身的时空相依结构也越来越复杂,现有分析方法受到很大挑战。本项目将从方法学上探索海量时空数据的统计建模及相关问题,并应用于我国大气污染的数据分析当中。利用空间统计学、函数型数据分析、随机过程、数据降维等领域中较新的理论和技术,本项目针对“时空结构的统计推断”、“分层模型的构建与参数估计”和“动态模型的拓展与数据融合”等几个时空分析当中的基本问题,分别从时空随机场的可分性检验、静态与动态时空模型的构造与数据融合、非线性动态模型的误差分析等方面开展研究。此外,本项目还将分析我国2013年以来多个大气污染物的海量数据,并以绘制动态污染地图和改进重污染预报精确度为切入点,从统计学的视角来理解大气污染物的扩散机制和空间传输特点。
海量时空数据具有体量大、维度高、结构复杂等特点。本项目从理论和方法学的角度,拓展了现有的时空统计推断方法和建模算法,以适应新的数据分析要求。 在充分尊重数据生成机制的基础上,本项目提出了多种更加灵活、数据驱动的方式发掘时空数据当中所蕴含的丰富信息,并将新的方法应用到现实的数据分析中,解决实际问题。..具体来讲,本项目首先将时空高斯随机场看成空间相依函数型数据进行建模,并提出了广义Karhunen-Loève分解和时空协方差算子的弱可分概念。在时空弱可分假设成立的前提下,降维算法可以大幅度简化,但该假设在实际数据中是否成立,需要严格的证明。鉴于此,本项目提出了利用交错协方差算子构建检验统计量的方法,并给出了假设检验流程。此外,在弱可分成立的条件下,本项目通过改进时空数据的分层模型,提出了新的基于非参数和半参数方法的建模方式,分别针对连续时间高斯过程和时间点过程开发出新的分析方法。其中,本项目通过高斯-马尔可夫随机场将空间场离散化,对具有空间相依关系且同质性强的函数型数据提出了较为稳健的聚类算法,并应用在我国的大气污染物协同分区问题上;通过对函数型时间序列提出半参模型,借助非参数模型的灵活性刻画点过程的一阶和二阶强度函数,并嵌入在传统的log高斯-考克斯过程模型框架中,达到高效的降维和参数估计结果。除了静态统计模型外,本项目还研究了动态、多源的时空数据融合问题,通过引入积分-差分方程和集合卡尔曼滤波算法,提出了针对数值模型输出偏差的校准时空模型和算法,并成功应用在我国京津冀地区的高分辨率大气污染地图绘制中。..综上,本项目面向海量复杂的时空数据,提出了若干新的分析建模框架,并成功应用在了真实世界的数据分析当中。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
面向云计算的海量时空数据建模及土地资源时空数据高效管理示范应用研究
小空间尺度下‘零膨胀’时空数据的统计建模
海量数据驱动的高维材质外观建模方法
时空数据的局部建模方法与特征分析