自然语言是人类空间认知结果的主要表现形式,文本是最常用的一种自然语言,也是一种重要的原始空间数据来源。从文本中获取未分析的、非显示的空间知识已成为当前地理信息科学迫切需要解决的问题。本项目针对文本中空间关系描述的定性化、非结构化、隐蔽性和语义不确定性等特点,研究面向自然语言的空间关系规范化表达方法,探讨基于核方法的文本空间关系抽取模型和方法,构建基于粗糙集的文本空间关系与GIS空间关系模式的语义映射算法,形成相应的中间件系统,并进行实验验证分析。通过该项目的研究,有望系统地揭示面向GIS的文本空间关系解析机制,形成从文本中获取空间数据的新思路,解决GIS中地理信息的自然语言描述难题,提升GIS表达能力和可理解性,完善文本中时空信息的解析和空间化方法,提供人类解读和理解文本的新形式,进一步丰富地理信息科学的理论与方法,推动地理信息科学的智能化、社会化和人性化发展。
全球技术研究和咨询公司(Gartner)调查报告显示,未来至少95%的人机交互信息是文本语言,而80%以上的文本中涉及地理信息的描述。除了传统的测绘、摄影测量和地图数字化等手段之外,GPS、卫星影像、文本等已成为新型的重要地理信息来源。由于数据来源和表达模型等方面的限制,GIS空间关系在描述、表达、理解、传递与交流等方面与人们习惯使用的自然语言存在显著差异。如何消除二者之间的语义鸿沟是地理信息科学研究面临的重要问题。本项目研究主要包括:1)分析文本中空间关系描述的定性化、非结构化、隐蔽性和不确定性等特点,探讨了不同类型空间关系描述的语言单元、句法结构和语义关系,制定了面向中文文本的地理命名实体和地理空间关系标注体系,以自然语言处理平台(GATE)为工具,构建了《中国大百科全书地理分册》标注语料库;2)构建了大规模全国地名数据库,设计了基于搜索引擎的地名敏感网页爬虫,分析了地理实体要素类型与特征字的关联关系,提出了基于条件随机场(CRM)和结构化支持向量机(SSVM)的地理实体抽取模型和算法,实现了基于网络爬虫和地理实体解析的地名数据库更新方法;3)构建了空间关系词汇与地理实体要素类型之间的语义映射本体,采用人工总结和序列比对相结合的方法,归纳了中文文本中空间关系描述的句法模式,提出了基于规则和支持向量机(特征向量和核方法)的空间关系抽取模型和算法;3)针对空间关系语义表达的几何、功能和语用三大特征,构建了空间关系词汇、句法和语用三个层次的语义解析模型,提出了基于上下文空间关系的地理实体模糊空间建模方法;5)开发了面向GIS的文本空间关系解析原型系统,进行了相关数据、模型和算法的实验验证分析,并开展了网络事件时空信息关联、面向土地管理和规划等领域的空间关系知识挖掘等案例应用研究。创新性成果主要包括:1)通过构建空间关系标注体系和大规模标注语料库,为面向自然语言的空间关系解析理论和应用研究提供了元数据规范和标准数据集;2)常用空间关系句法模式库和多种空间关系抽取算法,为相关应用推广提供了知识库和应用中间件;3)集成几何、功能和语用特征的空间关系语义解析模型,有效实现了自然语言与GIS空间关系的多层次语义映射。项目成果系统地揭示了面向GIS的文本空间关系解析机制,为普适化GIS发展提供了创新思路,同时为后续基金项目“面向自然语言的虚拟地理场景重构”研究奠定了坚实的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
农超对接模式中利益分配问题研究
粗颗粒土的静止土压力系数非线性分析与计算方法
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
中国参与全球价值链的环境效应分析
矿山GIS中的动态空间关系理论
面向中文文本的事件时空语义解析方法研究
面向特征语义单元的地理空间表达机制及特征语义GIS研究
文本环境下中文地名识别及其空间关系构建