基于高维地理数据特征提取的空间数据分析算法研究

基本信息
批准号:61603293
项目类别:青年科学基金项目
资助金额:21.00
负责人:梁栋
学科分类:
依托单位:西安交通大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:赵谦,戴明伟,方健,靖凯立,姚靖
关键词:
特征提取流形学习空间关系测地距离模型聚类
结项摘要

In recent years, the new requirements of data and spatial analysis are becoming the new opportunities of the development of Geographical Information System. Because of the special background of creation and property of geographic data, the applications face a series of challenges from big data processing with the characteristics of high-dimensionality, magnanimity and unstructured information to presentation of the view of time and space. Thus the rapid developing industry is badly in need of new types of tools in space exploration and geographic data analysis, which can make clients intelligently use the big data, simplify the multivariate data, extract feature and effectively find the spatial models and relationships, under the circumstance of data with uncertain properties and noise. Then the knowledge in data can be mined efficiently, promoting the values of data. Aiming at solving the mentioned problems, the followings are the major targets of this research. 1) Based on the features extraction of high-dimensional geographic data, we will present new methods of dimensionality reduction and clustering to solve the problems, starting from manifold learning and penalized model-based sparse clustering method via the nonconvex penalty functions. 2) We will also give a novel concept of distance based on the spatial data analysis structure and its efficient algorithm, which integrates the geographic and attribute distances into a new geographic data measure. 3) We will propose a new model for spatial analysis, along with previous research, to analyze spatial relationship under different conditions theoretically and practically.

近年来,数据与空间分析新的需求成为地理信息系统技术发展的新契机。由于地理数据自身性质与产生背景的特殊性,其具体应用面临着高维、海量、非结构化等一系列“大数据”形式处理以及时空观表达方面的挑战。因而,目前行业和产业的发展亟需新式空间探索与数据分析框架及其相关技术,以便可以智能地让用户详审大容量数据,简化多变量数据,并且在数据有不确定性与噪声的情况下,有效进行特征提取,以充分探测与搜索空间模式和空间关系,进而支持有效挖掘这些数据背后的知识,提升数据价值。针对以上问题,本项目拟 1)基于高维地理数据特征提取,从流形学习及模型聚类研究入手,提出新的降维与聚类方法;2)通过耦合地理距离和属性距离,提出一种新的空间数据分析距离概念及其有效估测算法;3) 结合前述的距离概念和新提出的地理数据降维与聚类方法,发展一个全新的空间数据分析模型框架,用于挖掘不同情形下地理数据的空间关系。

项目摘要

对于分布于低维流形上的非结构化高维数据,如何有效地实现降维处理进而对其进行机器学习?对于像地理数据这样特殊的非结构化数据,如何更科学准确的衡量空间关系特征?对于像文本、图像等普遍存在的非结构化高维数据,如何更加高效和智能化地聚类?对于承载数据的网络结构,如何更好地保持网络的稳定性并挖掘网络结构的性质?所有这些都是非结构化数据分析必须面对的突出问题,本项目聚焦于这些问题,研究分析数据规律及挖掘数据知识的理论与方法,以支持非结构化数据的分析和使用,并为后续的综合处理奠定基础。针对高维非结构化数据的降维问题,提出了一种应用范围广、计算效率高的新的流形学习方法。新方法是熟知的L-Isomap(Landmark Isomap)方法的改造,因其以Landmark点子集来嵌入新的输入数据,可称之为EL-Isomap(Extensive Landmark Isomap)。EL-Isomap和L-Isomap在机理、算法与理论基础方法存在显著不同,但同样是全局降维方法,新方法不仅能应用于更广泛的数据集,而且兼具局部流形学习方法的优点(特别可处理环状及低维空间凹区域等复杂结构流形数据),同时具有较低的计算复杂性。数据实验支持了所提新算法的优越性。 针对地理数据,提出并发展了一个全新的空间分析模型。地理数据的复杂性在于它不仅具有通常数据所呈现的属性特征,而且与地球表面空间位置相关(即地理信息)。为了分析地理数据,我们提出了一种耦合属性距离和地理距离的全新地理数据度量——本质度量距离。借助这一新的度量,地理数据的分析与处理可化归为通常数据的处理。我们从理论和应用上说明了这一新框架的合理性、有效性与可计算性。针对高维非结构化数据的聚类分析问题,提出了一种基于模型并结合使用非凸正则化的稀疏聚类算法。新算法以混合高斯分布为基础,结合SCAD (Smoothly Clipped Absolute Deviation)、MCP (Minimax Concave Penalty)、L_0以及 L_{1/2}等非凸正则化技术,并使用EM(Expectation Maximization)算法来进行求解。实验说明,新算法能够对超高维数据聚类并在其中自动选择特征并去除噪音,因而可广泛应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

梁栋的其他基金

批准号:51707154
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:21406211
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:61601223
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:61471350
批准年份:2014
资助金额:85.00
项目类别:面上项目
批准号:50808063
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:61172127
批准年份:2011
资助金额:50.00
项目类别:面上项目
批准号:51405409
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:61672032
批准年份:2016
资助金额:63.00
项目类别:面上项目
批准号:12026603
批准年份:2020
资助金额:100.00
项目类别:数学天元基金项目
批准号:60772121
批准年份:2007
资助金额:25.00
项目类别:面上项目
批准号:50374034
批准年份:2003
资助金额:20.00
项目类别:面上项目
批准号:81500244
批准年份:2015
资助金额:17.00
项目类别:青年科学基金项目
批准号:61102043
批准年份:2011
资助金额:28.00
项目类别:青年科学基金项目
批准号:59409007
批准年份:1994
资助金额:8.00
项目类别:青年科学基金项目
批准号:51605049
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

高维流式大数据的增量特征提取算法研究

批准号:61702270
批准年份:2017
负责人:谈超
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
2

独立分量分析算法及其在高维数据特征提取中应用研究

批准号:61573014
批准年份:2015
负责人:冶继民
学科分类:F0304
资助金额:51.00
项目类别:面上项目
3

地理空间数据渐进式综合的最优化算法

批准号:40571133
批准年份:2005
负责人:郭庆胜
学科分类:D0115
资助金额:31.00
项目类别:面上项目
4

基于元数据语义的地理空间数据关联方法研究

批准号:41371381
批准年份:2013
负责人:诸云强
学科分类:D0114
资助金额:75.00
项目类别:面上项目