A review on the spatial disaggregation of socioeconomic statistical data
Received date: 2021-10-25
Revised date: 2022-06-06
Online published: 2022-12-09
Supported by
National Key R&D Program(2020YFA0608504)
Socioeconomic statistical data is usually aggregated in units of administrative regions. The socioeconomic statistical data can reflect the heterogeneity between statistical units, but it cannot reflect the heterogeneity within a statistical unit. The socioeconomic statistical data cannot meet the needs of socioeconomic departments concerned in arbitrary regions. The spatial disaggregation of socioeconomic statistical data is an effective way to solve this problem. This study summarizes the existing methods of spatial disaggregation of socioeconomic statistical data, the auxiliary data used in methods for obtaining spatial disaggregation of socioeconomic statistical data, and the main socioeconomic grid data products. This study also predicts future development trends of the spatial disaggregation of socioeconomic statistical data in three aspects: the constraints and improvement directions of methods, the exploration of new auxiliary data and the comprehensive utilization of multi-source auxiliary data, the development of high temporal and spatial resolution and high-precision grid data products. The research results can provide references for the selection and improvement of spatial disaggregation methods of socioeconomic statistical data, the selection and comprehensive utilization of auxiliary data, and the selection and improvement of socioeconomic grid data products.
Key words: socioeconomic data; spatial disaggregation; population; GDP; data product
GUO Hongxiang , ZHU Wenquan . A review on the spatial disaggregation of socioeconomic statistical data[J]. Acta Geographica Sinica, 2022 , 77(10) : 2650 -2667 . DOI: 10.11821/dlxb202210015
图5 以人口统计数据为例所展示的多类分区密度制图法空间化过程注:根据辅助数据将人口密度分布划分为不同等级(辅助数据空间化结果),无人区人口密度为0,有人区根据土地利用类型将人口密度按照一定的权重划分成不同等级,每种土地利用类型设置一个权重(权重计算结果),将人口统计数据根据权重进行分配,得到人口数据空间化结果。 Fig. 5 The spatial disaggregation process of the multi-class dynamic mapping method shown by using population data as an example |
图7 以人口统计数据为例所展示的多源数据加权分配法空间化过程注:首先按照统一的空间化格网,对辅助数据中的矢量数据和栅格数据进行矢量化、重采样等处理,构建地理因子库,并按照各辅助数据的贡献度对这些辅助数据赋以权重,得到各因子权重图层,然后将各因子权重图层以相乘或相加等方式综合,得到综合后的权重图层,最后按照综合后的权重图层对人口数据进行加权分配。 Fig. 7 The spatial disaggregation process of multi-source data weight allocation method shown by using population data as an example |
图8 以人口统计数据为例所展示的多元回归模型/机器学习模型法空间化过程注:将辅助数据按统计单元尺度进行汇总,以一级统计单元的辅助数据作为自变量,人口统计数据作为因变量,进行回归或训练,得到一个多元回归模型或者机器学习模型;将栅格化后的地理因子库每个栅格的数据作为自变量,输入到训练好的模型中进行人口预测,得到人口数据空间化结果。 Fig. 8 The spatial disaggregation process of the multiple regression model/machine learning model method shown by using population data as an example |
表1 各空间化方法的特点Tab. 1 Characteristics of the spatial disaggregation methods |
空间化方法 | 原理 | 输入数据 | 假设条件 | 优点 | 局限性 | 参考文献 |
---|---|---|---|---|---|---|
面积权重法 | 将社会经济统计数据在各个统计单元内均匀展布,对每个格网内的社会经济数据按面积加权求和。 | 统计单元边界数据、社会经济统计数据。 | 社会经济数据在统计单元内分布均匀。 | 不依赖辅助数据。 | 社会经济数据空间分布差异较大的统计单元通常不能满足均匀分布这一假设,空间化结果误差较大。 | [11] |
二类分区密 度制图法 | 把空间划分为有社会经济数据的区域和无社会经济数据的区域,在有社会经济数据的区域对统计数据均匀展布,然后对每个格网内的社会经济数据按面积加权求和。 | 统计单元边界数据、社会经济统计数据、二类分区辅助数据。 | 在有社会经济数据的空间区域内,数据分布均匀。 | 能够排除无社会经济区域的干扰。 | 在有社会经济数据的区域,社会经济数据分布仍可能存空间差异,均匀展布会存在误差。 | [12] |
多类分区密 度制图法 | 把空间按照一定规则划分为多个分区,将社会经济数据按照一定的权重分别均匀展布到各个分区,然后对每个格网内的社会经济数据按面积加权求和。 | 统计单元边界数据、社会经济统计数据、多类分区辅助数据。 | 在每个分区内,社会经济数据分布均匀。 | 将空间划分为更精细的分区,能够得到更精细的社会经济统计数据空间化结果。 | 在一个分区内的社会经济数据空间分布通常也很难呈现均匀分布,因此无法在分区内进一步提高空间化精度。 | [13] |
点插值法 | 选择控制点,通过空间插值等方法计算权重栅格图层,将社会经济统计数据按照权重图层进行分配。 | 控制点数据、社会经济统计数据。 | 社会经济数据随着离控制点距离的变化而变化。 | 能够准确反映社会经济数据分布比较聚集的区域。 | 对于无控制点或者控制点附近社会经济数据分布比较离散的情况误差较大。 | [14] |
多源数据加 权分配法 | 对辅助数据进行栅格化、重采样等预处理,建立相同格网下的辅助数据库,按照各辅助数据的贡献度对这些辅助数据赋以权重,得到各因子权重图层,然后将各因子权重图层以相乘或相加等方式进行综合处理,得到综合权重图层,最后按照综合权重图层对社会经济统计数据进行加权分配。 | 社会经济统计数据、多源辅助数据。 | 社会经济数据与辅助数据分布具有相关性。 | 能够综合利用多源辅助数据的空间信息。 | 辅助数据库各图层之间可能存在数据冗余。 | [15] |
多元回归模型法/机器学 习法 | 把辅助数据通过栅格化或者重采样的方式预处理,建立相同格网下的辅助数据库。对每个统计单元内的辅助数据进行统计,得到统计单元级别的辅助数据库。利用行政单元级别的数据,拟合出辅助数据与社会经济数据的映射关系,最后利用各栅格的辅助数据对其社会经济数据值进行预测。 | 统计单元边界数据、社会经济统计数据、多源辅助数据。 | 社会经济数据与辅助数据具有相关性。 | 能够综合利用多源辅助数据的空间信息,可确定各个辅助数据对社会经济数据预测的重要程度。 | 在统计单元尺度拟合的模型,用在栅格尺度上,可能会存在尺度不同引起的误差。 | [8,20] |
表2 国家至全球尺度的部分人口空间化数据产品Tab. 2 Several population grid data products at national and global scales |
数据空间范围及名称 | 辅助数据 | 方法 | 空间分辨率 | 覆盖年份 | 参考文献 |
---|---|---|---|---|---|
美国 | 土地利用 | 分区密度制图法 | 30 m | 2010 | [35] |
中国 | 夜间灯光、土地利用 | 分区密度制图法 | 1 km | 2000、2010 | [36] |
中国 | 土地利用、夜间灯光 | 多元回归模型 | 1 km | 1990、2000、2010 | [37] |
中国 | POI、夜间灯光、NDVI、数字高程模型、道路 | 机器学习法 | 100 m | 2010 | [8] |
中国 | 大众媒体数据、夜间灯光、土地利用、数字高程模型 | 机器学习法 | 1 km | 2015 | [6] |
全球(GPW) | 联合国人口普查数据、全球陆表水体数据 | 面积权重法 | 30 s | 2000、2005、2010、2015、2020 | [38] |
全球(LandScan) | 坡度、道路、土地覆盖、夜间灯光、城市密度 | 多源数据 加权分配法 | 30 s | 2000—2020 | [39] |
全球(WorldPop) | 土地利用、NPP、夜间灯光、数字高程模型、坡度、地表温度、降水、道路交通网、城乡边界、POI等 | 机器学习法 | 100 m | 2000—2020 | [40] |
表3 国家至全球尺度的部分GDP空间化数据产品Tab. 3 Several GDP grid data products at national and global scales |
[1] |
吴吉东, 王旭, 王菜林, 等. 社会经济数据空间化现状与发展趋势. 地球信息科学学报, 2018, 20(9): 1252-1262.]
|
[2] |
[李飞, 张树文, 杨久春, 等. 社会经济数据空间化研究进展. 地理与地理信息科学, 2014, 30(4): 102-107.]
|
[3] |
|
[4] |
[马静, 焦文献. 我国社会统计数据空间化研究综述. 未来与发展, 2008, 29(3): 25-28.]
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
董春, 刘纪平, 赵荣, 等. 地理因子与空间人口分布的相关性研究. 遥感信息, 2002, 17(4): 61-64.]
|
[16] |
|
[17] |
|
[18] |
[廖顺宝, 孙九林. 基于GIS的青藏高原人口统计数据空间化. 地理学报, 2003, 58(1): 25-33 ]
|
[19] |
叶宇, 刘高焕, 冯险峰. 人口数据空间化表达与应用. 地球信息科学, 2006, 8(2): 59-65.]
|
[20] |
[成方龙, 赵冠伟. 分区策略与机器学习的人口分布精细化模拟. 测绘科学, 2020, 45(9): 165-173.]
|
[21] |
|
[22] |
|
[23] |
[韩向娣, 周艺, 王世新, 等. 夜间灯光遥感数据的GDP空间化处理方法. 地球信息科学学报, 2012, 14(1): 128-136.]
|
[24] |
|
[25] |
|
[26] |
[吴中元, 许捍卫, 胡钟敏. 基于腾讯位置大数据的精细尺度人口空间化: 以南京市江宁区秣陵街道为例. 地理与地理信息科学, 2019, 35(6): 61-65.]
|
[27] |
|
[28] |
[朱守杰, 杜世宏, 李军, 等. 融合多源空间数据的城镇人口分布估算. 地球信息科学学报, 2020, 22(8): 1607-1616.]
|
[29] |
|
[30] |
[潘顺. 长三角人口数据格网化及其人口空间分布特征分析[D]. 上海: 上海师范大学, 2016.]
|
[31] |
[张爱华, 潘耀忠, 明艳芳, 等. 多源信息耦合的GDP空间化研究: 以北京市为例. 遥感技术与应用, 2021, 36(2): 463-472.]
|
[32] |
|
[33] |
[康相武, 吴绍洪, 戴尔阜, 等. 区域社会经济财产数据空间化方法研究. 中国软科学, 2006(8): 104-108.]
|
[34] |
[杨海霞. 建筑物空间分布格网化方法研究[D]. 北京: 中国地震局地震预测研究所, 2015.]
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
王劲峰, 徐成东. 地理探测器: 原理与展望. 地理学报, 2017, 72(1): 116-134.]
|
[47] |
[李树涛, 李聪妤, 康旭东. 多源遥感图像融合发展现状与未来展望. 遥感学报, 2021, 25(1): 148-166.]
|
[48] |
|
[49] |
|
[50] |
|
[51] |
张雪霞, 吴升, 赵志远, 等. 基于手机信令数据的城市小活动空间人群空间分布特征. 地球信息科学学报, 2021, 23(8): 1433-1445.]
|
[52] |
|
[53] |
|
[54] |
|
/
〈 |
|
〉 |