地理大数据中POI数据质量的评估与提升方法
薛冰(1982-), 男, 江苏灌云人, 研究员, 博士生导师, 主要从事人地关系分析与区域可持续发展治理研究。E-mail: xuebing@iae.ac.cn |
收稿日期: 2022-09-13
修回日期: 2023-03-12
网络出版日期: 2023-05-27
基金资助
国家自然科学基金项目(41971166)
辽宁省“兴辽英才计划”项目(XLYC2007201)
中国科学院区域发展青年学者项目(2021-003)
Evaluation and enhancement methods of POI data quality in the context of geographic big data
Received date: 2022-09-13
Revised date: 2023-03-12
Online published: 2023-05-27
Supported by
National Natural Science Foundation of China(41971166)
Liaoning Xingliaoyingcai Program(XLYC2007201)
CAS Young Scholar of Regional Development(2021-003)
地理大数据实现对区域人地系统的精细刻画,为研究人地关系和区域发展等提供新的数据。当前,地理大数据进入了广泛应用,但一直缺乏对其质量的考察及相应的评估方法。兴趣点(POI)数据是地理大数据重要组成部分,对基于位置服务和区域场景理解具有重要作用。本文提出POI类大数据评估与提升方法,基于场地调研、GIS等方法从地物识别完整率、数据冗余率和空间位置准确率3个维度实现质量评估;基于数据生产过程发现和总结数据质量的可能影响因素,证明多源数据融合是提升POI数据质量的有效手段。研究发现,基于API接口获取的高德数据量略高于百度,空间位置准确率相当,冗余率较低;高德侧重识别地物入口,适于可达性等分析;百度侧重发现非标志性地物,适于空间规划等分析;发现、采集和处理阶段是降低数据质量的可能环节,受数据保护机制影响,数据质量与获取量及面积成反比;多源异构地理大数据质量评估、提升与融合是提升数据“涌现价值”、促进多学科交叉融通、解决新时代地理学问题的关键途径之一。
薛冰 , 赵冰玉 , 李京忠 . 地理大数据中POI数据质量的评估与提升方法[J]. 地理学报, 2023 , 78(5) : 1290 -1303 . DOI: 10.11821/dlxb202305014
Geographic big data enables a fine-grained depiction of regional human-terrestrial systems and provides new data for the study of human-terrestrial relations and regional development. At present, geographic big data research has entered the stage of widespread application, but the examination of its quality and the corresponding evaluation methods have been lacking to guarantee the widespread and efficient application of the data. POI is an important part of geographic big data and plays an important role in location-based services and an understanding of regional scenarios. This paper proposes a method to assess and enhance POI-type big data, and realize quality evaluation based on site research, GIS and other methods from three dimensions: feature identification completeness, data redundancy rate and spatial location accuracy; discover and summarize possible influencing factors of data quality based on data production process, and prove that multi-source data fusion is an effective means to enhance POI data quality. We found that: the volume of Amap data acquired based on API interface is slightly higher than that of Baidu, the accuracy rate of spatial location is comparable and the redundancy rate is lower; Amap focuses on identifying the entrance of features, which is suitable for analysis such as accessibility; Baidu focuses on discovering non-significant features, which is suitable for analysis such as spatial planning; the discovery, acquisition and processing stages are possible links to reduce data quality, which is influenced by data protection mechanism, and the data quality is inversely proportional to the acquisition volume and area. The quality assessment, enhancement and integration of multi-source heterogeneous geographic data is one of the key ways to enhance the "emergent value" of data, promote trans- and cross-multidisciplinary and solve geographic problems in the new era.
Key words: POI data; geographic big data; data quality assessment; site research; GIS
表1 网络地图与调研数据对比Tab. 1 Comparison of e-map and survey data |
地点 | 来源 | 数据量(条) | 地物识别完整率(%) | 重复数量 | 冗余率(%) | 误差数 | 位置准确率(%) |
---|---|---|---|---|---|---|---|
青年 公园 | 高德 | 26 | 71.43 | 0 | 0 | 1 | 96.15 |
百度 | 23 | 62.86 | 1 | 4.30 | 0 | 100.00 | |
沈体 | 高德 | 27 | 54.17 | 0 | 0 | 2 | 92.60 |
百度 | 26 | 52.08 | 0 | 0 | 3 | 88.46 | |
医大一 | 高德 | 29 | 65.17 | 1 | 3.40 | 4 | 86.21 |
百度 | 26 | 58.14 | 0 | 0 | 4 | 84.62 |
注:青年公园实地调研的数据量为35条;沈阳体育学院实地调研的数据量为48条;中国医科大学第一附属医院实地调研的数据量为43条。 |
表2 网络地图与融合后数据对比Tab. 2 Comparison of e-map and fusion data |
地点 | 来源 | 数据量(条) | 地物识别完整率(%) | 重复数 | 冗余率(%) | 误差数 | 位置准确率(%) |
---|---|---|---|---|---|---|---|
青年 公园 | 融合 | 34 | 94.29 | 0 | 0 | 1 | 97.14 |
高德 | 26 | 71.43 | 0 | 0 | 1 | 96.15 | |
百度 | 23 | 62.86 | 1 | 4.30 | 0 | 100.00 | |
沈体 | 融合 | 34 | 68.75 | 0 | 0 | 1 | 97.06 |
高德 | 27 | 54.17 | 0 | 0 | 2 | 92.60 | |
百度 | 26 | 52.08 | 0 | 0 | 3 | 88.46 | |
医大一 | 融合 | 40 | 90.70 | 0 | 0 | 5 | 87.50 |
高德 | 29 | 65.17 | 1 | 3.40 | 4 | 86.21 | |
百度 | 26 | 58.14 | 0 | 0 | 4 | 84.62 |
注:青年公园实地调研的数据量为35条;沈阳体育学院实地调研的数据量为48条;中国医科大学第一附属医院实地调研的数据量为43条。 |
[1] |
[ 程昌秀, 史培军, 宋长青, 等. 地理大数据为地理复杂性研究提供新机遇. 地理学报, 2018, 73(8): 1397-1406.]
|
[2] |
|
[3] |
[ 薛冰, 赵冰玉, 李京忠. 地理学视角下城市复杂性研究综述: 基于近20年文献回顾. 地理科学进展, 2022, 41(1): 157-172.]
|
[4] |
[ 薛冰, 李京忠, 肖骁, 等. 基于兴趣点(POI)大数据的人地关系研究综述: 理论、方法与应用. 地理与地理信息科学, 2019, 35(6): 51-60.]
|
[5] |
[ 郑敏睿, 郑新奇, 李天乐, 等. 京津冀城市群城市功能互动格局与治理策略. 地理学报, 2022, 77(6): 1374-1390.]
|
[6] |
[ 薛冰, 许耀天, 赵冰玉. 地理学视角下POI大数据的应用研究及反思. 贵州师范大学学报(自然科学版), 2022, 40(4): 1-6, 14, 128.]
|
[7] |
[ 薛冰, 肖骁, 李京忠, 等. 基于POI大数据的沈阳市住宅与零售业空间关联分析. 地理科学, 2019, 39(3): 442-449.]
|
[8] |
[ 刘瑜, 郭浩, 李海峰, 等. 从地理规律到地理空间人工智能. 测绘学报, 2022, 51(6): 1062-1069.]
|
[9] |
[ 甄峰, 李哲睿, 谢智敏. 基于人口流动的城市内部空间结构特征及其影响因素分析: 以南京市为例. 地理研究, 2022, 41(6): 1525-1539.]
|
[10] |
|
[11] |
[ 浩飞龙, 施响, 白雪, 等. 多样性视角下的城市复合功能特征及成因探测: 以长春市为例. 地理研究, 2019, 38(2): 247-258.]
|
[12] |
|
[13] |
[ 李德仁, 张过, 蒋永华, 等. 论大数据视角下的地球空间信息学的机遇与挑战. 大数据, 2022, 8(2): 3-14.]
|
[14] |
|
[15] |
|
[16] |
|
[17] |
[ 薛冰, 赵冰玉, 肖骁, 等. 基于POI大数据的资源型城市功能区识别方法与实证: 以辽宁省本溪市为例. 人文地理, 2020, 35(4): 81-90.]
|
[18] |
|
[19] |
|
[20] |
[ 张佳, 王琛. 农村电子商务与产品多样化影响因素探究: 基于浙江淘宝村的实地调研分析. 地理科学进展, 2020, 39(8): 1260-1269.]
|
[21] |
[ 谌丽, 许婧雪, 张文忠, 等. 居民城市公共安全感知与社区环境: 基于北京大规模调查问卷的分析. 地理学报, 2021, 76(8): 1939-1950.]
|
[22] |
[ 王俊松, 颜燕. 复杂度、关联度与城市技术演化路径: 基于北京、上海、深圳的对比分析. 地理科学进展, 2022, 41(4): 554-566.]
|
[23] |
[ 李智轩, 甄峰, 张姗琪, 等. 老年人公交活动空间特征及影响因素研究: 基于日常与偶发活动的对比分析. 地理科学进展, 2022, 41(4): 648-659.]
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
[ 薛冰, 肖骁, 李京忠, 等. 基于POI大数据的老工业区房价影响因素空间分异与实证. 人文地理, 2019, 34(4): 106-114.]
|
[30] |
[ 薛冰, 肖骁, 李京忠, 等. 基于POI大数据的城市零售业空间热点分析: 以辽宁省沈阳市为例. 经济地理, 2018, 38(5): 36-43.]
|
[31] |
[ 刘雅莉, 王艳芬, 杜剑卿, 等. 地球大数据助力均衡发展评估. 中国科学院院刊, 2021, 36(8): 963-972.]
|
[32] |
[ 杨建豪, 宋超, 周国富, 等. 一种基于多分类子链的政务数据质量管理架构. 信息安全研究, 2022, 8(4): 374-385.]
|
[33] |
|
[34] |
[ 唐劼, 叶孝奇. 广东省中山市南朗古镇国家历史文化名城研究中心历史街区调研. 城市规划, 2022, 46(7): 90-91.]
|
[35] |
[ 谭海宁, 姚迪, 毕经平, 等. 面向数据匮乏城市的下一个POI推荐方法. 高技术通讯, 2021, 31(12): 1248-1260.]
|
[36] |
[ 周世洋, 卢俊之, 季成晖. 兴趣点POI的处理方法、装置、电子设备及计算机存储介质. 广东: CN110795515B, 2022-04-12.]
|
[37] |
[ 俞丹. 地图数据质量鲜度获取方法、装置及存储介质. 北京: CN111986552B, 2022-04-15.]
|
[38] |
[ 胡志怀, 蔡博, 朱赟高. 国税地税联合数据采集系统及其操作方法. 浙江: CN108229921B, 2022-02-18.]
|
[39] |
[ 解琨. 基础地理数据在数字城市数据采集中的应用. 测绘与空间地理信息, 2021, 44(4): 162-163, 167.]
|
[40] |
[ 杜钧, 徐瑞峰, 曹晓航, 等. 导航电子地图地理要素信息的反馈方法、终端及服务器. 北京: CN101608925B, 2013-07-10.]
|
[41] |
[ 贾志宾, 丰成平, 刘朝辉. 一种数据处理方法及装置. 广东: CN114329236A, 2022-04-12.]
|
[42] |
[ 林志鹏. 基于POI空间距离的定位方法、装置、设备和存储介质. 北京: CN111726860B, 2022-04-08.]
|
[43] |
[ 沈蕾, 李乃强. 多源矢量数据的电子地图整合更新技术研究. 地理空间信息, 2021, 19(7): 119-122, 8.]
|
[44] |
[ 程鹏, 罗丽俊. 一种POI信息补充方法及装置. 北京: CN103218375B, 2016-08-17.]
|
[45] |
[ 张巍, 高新院, 李瑞姗. 空间位置信息的多源POI数据融合. 中国海洋大学学报(自然科学版), 2014, 44(7): 111-116.]
|
[46] |
[ 吴张峰, 夏兰芳. 多源异构POI融合方法及应用. 测绘通报, 2018(3): 143-146.]
|
[47] |
[ 王智广. 衡量地图POI数据的质量的方法和装置. 北京: CN105608112A, 2016-05-25.]
|
[48] |
[ 薛冰, 肖骁, 李京忠, 等. 基于兴趣点(POI)大数据的东北城市空间结构分析. 地理科学, 2020, 40(5): 691-700.]
|
[49] |
[ 朱邦耀, 吴媛媛. 地方小吃空间扩散格局与模式: 基于中国四大知名地方小吃POI数据的研究. 地理科学, 2021, 41(12): 2179-2185.]
|
[50] |
[ 杜云艳, 易嘉伟, 薛存金, 等. 多源地理大数据支撑下的地理事件建模与分析. 地理学报, 2021, 76(11): 2853-2866.]
|
[51] |
[ 李鹏飞, 张亚, 孙钦珂. 兴趣点综合相似度计算方法及应用研究. 测绘科学, 2021, 46(9): 178-183.]
|
[52] |
|
[53] |
[ 郭明军, 陈沁, 安小米, 等. 我国大数据发展指数构建及实践应用: 从政务数据与社会数据融合的视角. 大数据, 2022, 8(2): 182-192.]
|
[54] |
[ 裴韬, 黄强, 王席, 等. 地理大数据聚合的内涵、分类与框架. 遥感学报, 2021, 25(11): 2153-2162.]
|
[55] |
[ 黎建辉, 李跃鹏, 王华进, 等. 科学大数据管理技术与系统. 中国科学院院刊, 2018, 33(8): 796-803.]
|
[56] |
[ 裴韬, 刘亚溪, 郭思慧, 等. 地理大数据挖掘的本质. 地理学报, 2019, 74(3): 586-598.]
|
[57] |
[ 刘瑜, 姚欣, 龚咏喜, 等. 大数据时代的空间交互分析方法和应用再论. 地理学报, 2020, 75(7): 1523-1538.]
|
[58] |
[ 杨俊, 由浩琳, 张育庆, 等. 从传统数据到大数据+的人居环境研究进展. 地理科学进展, 2020, 39(1): 166-176.]
|
[69] |
[ 陈旻, 闾国年, 周成虎, 等. 面向新时代地理学特征研究的地理建模与模拟系统发展及构建思考. 中国科学: 地球科学, 2021, 51(10): 1664-1680.]
|
[60] |
[ 李新, 袁林旺, 裴韬, 等. 信息地理学学科体系与发展战略要点. 地理学报, 2021, 76(9): 2094-2103.]
|
/
〈 |
|
〉 |