Building gazetteer by labour is a hard woking ,which is time-consuming and the scale of gazetteer is limited, that can not satisfy the requirement of geographic information retrieval based on Web. So we research on web-based automatic identifying of a chinese vague toponym and the approximate footprint estimate. We use geographically focused collaborative crawling for acquiring web page with chinese vague toponym and associated place names from mulit-source information.Further, we use a hierarchical strategy which a combination of rules and statistics for identifying chinese vague toponym. Finally, spatial scan statistic-based approach is used to estimate the approximate geographic coverage of chinese vague toponym. This project research on the new problem about the obtaining of toponym based on Web, the results can be applied to various WebGIS application, which has important theoretical value and prospects.
基于人工方式构建中文地名词典,耗时长、地名数目规模受限,无法满足Web环境下地理信息获取服务对地名的需求。本项目研究面向Web的中文模糊地名自动识别与近似地理范围估算,利用面向地名主题信息的协同聚焦爬取方法,从多源海量Web信息中爬取模糊地名及关联地名网页信息,进一步利用规则与统计相结合的模糊中文地名分级识别策略,有效的提取模糊地名及其关联地名信息,最终基于空间扫描统计的方法完成模糊地名近似地理覆盖范围估算。本项目研究Web环境下地名自动获取的新问题,其成果可应用各类网络空间信息系统,具有重要的理论研究价值与应用前景。
本项目重点研究了面向Web的中文模糊地名自动识别与近似地理范围估算,提出了基于MapReduce的地名主题信息的协同爬取方法,能够高效的获取地名相关的网页信息。我们提出了规则识别与条件随机场学习相结合的地名识别方法,提高了地名识别的查全率与查准率,提出了基于监督学习的地名近似地理覆盖范围估算方法。最终,项目开发实现了LanguageBridge地名识别与范围估算工具,不但能识别中文与英文地名,还能够识别阿拉伯文、俄语、乌克兰语、印度尼西亚语等数十种语言。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于细粒度词表示的命名实体识别研究
文本环境下中文地名识别及其空间关系构建
基于地名本体的地理空间信息组织与应用研究
中文网络文本的地理实体语义关系标注与评价
语义Web模糊规则互换与推理关键技术研究