Research Progress

A review on the spatial disaggregation of socioeconomic statistical data

  • GUO Hongxiang , 1, 2 ,
  • ZHU Wenquan , 1, 2
Expand
  • 1. State Key Laboratory of Remote Sensing Science, Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China
  • 2. Beijing Engineering Research Center for Global Land Remote Sensing Products, Institute of Remote Sensing Science and Engineering, Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China

Received date: 2021-10-25

  Revised date: 2022-06-06

  Online published: 2022-12-09

Supported by

National Key R&D Program(2020YFA0608504)

Abstract

Socioeconomic statistical data is usually aggregated in units of administrative regions. The socioeconomic statistical data can reflect the heterogeneity between statistical units, but it cannot reflect the heterogeneity within a statistical unit. The socioeconomic statistical data cannot meet the needs of socioeconomic departments concerned in arbitrary regions. The spatial disaggregation of socioeconomic statistical data is an effective way to solve this problem. This study summarizes the existing methods of spatial disaggregation of socioeconomic statistical data, the auxiliary data used in methods for obtaining spatial disaggregation of socioeconomic statistical data, and the main socioeconomic grid data products. This study also predicts future development trends of the spatial disaggregation of socioeconomic statistical data in three aspects: the constraints and improvement directions of methods, the exploration of new auxiliary data and the comprehensive utilization of multi-source auxiliary data, the development of high temporal and spatial resolution and high-precision grid data products. The research results can provide references for the selection and improvement of spatial disaggregation methods of socioeconomic statistical data, the selection and comprehensive utilization of auxiliary data, and the selection and improvement of socioeconomic grid data products.

Cite this article

GUO Hongxiang , ZHU Wenquan . A review on the spatial disaggregation of socioeconomic statistical data[J]. Acta Geographica Sinica, 2022 , 77(10) : 2650 -2667 . DOI: 10.11821/dlxb202210015

1 引言

社会经济数据能够反映一个地区一段时间内社会和经济的发展状况,是政府进行宏观社会经济管理的重要依据[1]。社会经济数据通常以各级行政区为单元进行调查、记录、汇总和保存,并以统计表格的方式进行整理发布(图1)。从信息流的角度来看,社会经济统计数据的逐层汇总过程实质上也是空间位置信息的逐步丧失过程,因此这种以行政区为统计单元的数据虽然能反映统计单元之间的差异,但却不能反映统计单元内部的空间异质性。在实际应用中,我们经常需要根据某一事件所涉及的实际空间范围来汇总社会经济数据,但由于这个实际空间范围与统计单元之间很难碰巧完全重合,因此无法基于这种统计单元的汇总数据来获得任意空间范围内的社会经济数据。例如,发生自然灾害(如地震)时,需要根据实际的受灾范围来获取一定范围内的社会经济数据,而受灾范围与统计单元不太可能刚好匹配,此时无法基于统计单元的汇总数据来快速获得受灾范围的社会经济数据。此外,不同的社会经济统计数据之间,也会存在统计单元不匹配、数据结构不同的问题。
图1 以人口统计数据为例所展示的社会经济统计数据获取过程

注:各小图的外框示意二级统计单元;左、中两小图里面的4个黑色矩形示意一级统计单元,每个格网示意一个数据点;从左至右,数据由各格网点汇总至一级统计单元,再由一级统计单元汇总至二级统计单元;注意每次数据汇总均丧失了部分空间位置信息。

Fig. 1 The process of obtaining socioeconomic statistical data shown by using population data as an example

社会经济统计数据空间化是社会经济统计数据获取的逆过程(图1),它利用社会经济数据潜在的空间分布特点,将统计数据展布到一定分辨率的空间栅格单元上,以此来模拟社会经济数据在地理空间上的分布[2]。由于社会经济统计数据空间化是将粗分辨率的行政单元统计数据转换为高空间分辨率栅格数据的过程,这完全符合空间降尺度的定义(将粗分辨模型输出结果或粗分辨率数据转换为高空间分辨率数据的过程)[3],因此也可以将社会经济统计数据空间化理解为社会经济统计数据空间降尺度。社会经济统计数据空间化实质上是对丧失了精细空间位置信息的统计数据进行空间复原的过程,由于这是一个信息增加的过程,因此通常需结合具有空间位置信息的辅助数据来复原空间位置信息,且辅助数据与社会经济数据越相关,其对社会经济数据的空间位置复原能力就有可能越好。由于空间化的社会经济数据采用统一的栅格单元来表达,且相较于原数据具有更精细的空间位置信息,因此各类空间化的社会经济数据之间就可以在一致的栅格单元上进行相互匹配,各数据也可以很容易地在栅格单元上汇总至更大空间范围上的任意区域。可见,社会经济统计数据空间化是有效解决各类社会经济统计数据的统计单元不匹配、无法按任意空间范围进行数据汇总等问题的一种重要途径。
随着社会经济统计数据空间化研究的不断发展,社会经济统计数据空间化的方法更加多样,所使用的辅助数据也越来越丰富,并出现了一系列社会经济空间化数据产品,已有学者从不同层面对社会经济统计数据空间化的研究进展进行了总结。马静等[4]从社会经济统计数据空间化的研究方法和研究内容角度进行了归纳总结,认为未来社会经济统计数据将向更高精度方向发展,需要重复挖掘遥感数据的使用价值、加强精度验证和数据库管理工作;李飞等[2]对社会经济统计数据空间化的方法进行了归纳分类,认为社会经济统计数据空间化在当时还处在方法探索阶段,需要进一步加强空间化产品后期应用的研究;吴吉东等[1]将空间化方法归纳为面积权重法、统计模型法和多源数据加权分配法3类,认为社会经济统计数据空间化将向着研究指标多样化、空间化精度要求多元化和大数据应用广泛化方向发展。整体上看,现有的关于社会经济数据空间化的综述,主要是针对空间插值法和统计模型法等传统方法的归纳总结。近年来,社会经济统计数据空间化的方法更加多样,特别是近年来随着机器学习技术的发展,随机森林、人工神经网络等机器学习算法已被应用于社会经统计数据空间化研究中,这些方法与传统方法的原理、优缺点和适用条件均有所不同,因此有必要对它们进行系统地梳理以用于指导对各已有方法的选择和启发新方法的构建。在社会经济统计数据空间化的辅助数据使用中,早期的辅助数据主要包括夜光遥感数据、土地利用/土地覆盖数据、数字高程模型等。近年来随着大数据时代的到来,感兴趣点(POI)数据[5]、网络媒体数据[6]、手机信令数据[7]等逐渐被应用到社会经济统计数据空间化研究中,这些辅助数据各自的优势以及应用范围和适用条件均存在差异,因此也有必要对其进行系统地梳理以用于指导对各辅助数据的选择及综合利用。同时,在社会经济管理、灾情评估、精细服务等各类需求的牵引下,基于上述社会经济统计数据空间化方法和相关辅助数据,研发人员生产了一系列的社会经济空间化数据产品[8-10],这些数据产品在生产方法、空间范围、时空分辨率、数据精度等方面各不相同,因此也有必要对其进行系统地梳理以用于指导对各数据产品的应用选择及改进。
因此,本文将从空间化方法、辅助数据、主要的社会经济空间化数据产品3个方面对社会经济统计数据空间化的研究进展进行系统梳理,并展望其未来发展趋势,以期为空间化方法的选择与改进、辅助数据的选择与综合利用、社会经济空间化数据产品的应用与改进提供参考。

2 空间化方法的发展

社会经济统计数据空间化方法可以归纳为空间插值法、统计模型法和机器学习法3大类(图2)。空间插值法先在空间维度进行权重插值,再根据权重空间化结果对统计数据进行空间化,空间插值法整体上可以分为点插值法和面插值法两小类。统计模型法的主要思想在于确定辅助数据与社会经济统计数据之间的统计关系,通过这种统计关系进行社会经济统计数据的空间化,统计模型法可以分为多源数据加权分配法、多元回归模型法两小类。机器学习法选择有代表性的统计单元社会经济数据和辅助数据作为样本,训练一个机器学习模型,再将每个格网对应的辅助数据输入到训练好的机器学习模型中进行预测,得到社会经济数据空间化结果,在社会经济统计数据空间化中应用较多的机器学习算法包括决策树、随机森林、支持向量机、人工神经网络及深度学习等。
图2 社会经济统计数据空间化方法

Fig. 2 Methods of spatial disaggregation of socioeconomic statistical data

2.1 空间插值法

空间插值是指利用离散点信息或不连续的面状信息构建一个连续的曲面,其目的是使用有限的观测值或有信息空缺的曲面,运用有效方法对无数据的点进行填补[3]。应用于社会经济统计数据空间化的空间插值方法包括面插值法和点插值法。

2.1.1 面插值法

面插值法是早期社会经济统计数据空间化中应用较多的一类方法。根据插值过程中是否使用辅助数据,可以把面插值法分为面积权重法和分区密度制图法。
面积权重法是一种早期发展的社会经济统计数据空间化方法[11],它是一种无辅助数据的面插值方法。其假设社会经济数据在一定区域内呈均匀分布,首先通过均匀展布的方式计算不同区域内的社会经济数据密度,通过密度与栅格面积相乘,得到栅格的社会经济数据;对于存在不同密度区域的栅格,则将不同密度区域在该栅格中所占的面积比例作为权重,通过加权求和计算出该栅格的社会经济数据密度,最终得到社会经济统计数据的空间化结果(图3)。面积权重法的优势是不需要辅助数据,但使用的前提是社会经济数据在一定区域内需均匀分布,如果社会经济数据并非均匀分布则会给空间化带来误差。例如,在人口数据空间化的过程中,湖泊河流等大型水体在逻辑上应该没有人口分布[1],但如果采用面积权重法进行空间化则会均匀地赋以人口数据。
图3 以人口统计数据为例所展示的面积权重法空间化过程

注:人口统计数据首先均匀展布在各自的一级统计单元内(小图内部的各个矩形)得到人口密度,并通过与栅格面积的乘积得到每个栅格的人口;对于跨越了多个一级统计单元的栅格,其人口数据由各一级统计单元在该栅格中所占的面积比例作为权重,通过加权求和计算出该栅格的人口数据。

Fig. 3 The spatial disaggregation process of area weighting method shown by using population data as an example

为提高社会经济统计数据空间化的精度,有学者提出有辅助数据的面插值模型,即分区密度制图法,它包括二类分区密度制图法和多类分区密度制图法。二类分区密度制图法[12]的主要思想是先根据辅助数据把空间划分为有社会经济数据的区域和无社会经济数据的区域两部分,再针对有社会经济数据的区域使用面插值法进行空间化(图4)。该方法可排除无社会经济数据区域对空间化过程的干扰,但其仍假设社会经济数据在有数据的区域是均匀分布的,这种假设仍可能与实际情况不符。例如,即使是在有人区,人口的空间分布也会存在空间分布不均的情况。
图4 以人口统计数据为例所展示的二类分区密度制图法空间化过程

注:根据辅助数据将空间划分为有人区和无人区(辅助数据空间化结果),无人区人口数据为0,将人口统计数据均匀展布在有人区(权重计算结果),得到人口数据空间化结果。

Fig. 4 The spatial disaggregation process of the two-class dynamic mapping method shown by using population data as an example

为得到更精细的社会经济数据空间化结果,出现了多类分区密度制图法。该方法根据辅助数据将有数据区域的社会经济数据划分成多个等级,对于不同等级的区域,使用相对应的社会经济数据的权重,最后针对每个栅格中不同等级所占的面积比例,进行加权求和,得到最终的权重空间化结果,进而实现社会经济统计数据的空间化[13]图5)。土地利用数据是使用较多的一种辅助数据,利用人口、GDP等社会经济数据与不同土地利用类型的相关关系确定权重的大小,对每种土地利用类型建立不同等级的社会经济数据权重。多类分区密度制图法假设在相同等级的区域中,社会经济数据分布均匀,这种假设仍然会引起误差,无法满足更精细的社会经济统计数据空间化需求。
图5 以人口统计数据为例所展示的多类分区密度制图法空间化过程

注:根据辅助数据将人口密度分布划分为不同等级(辅助数据空间化结果),无人区人口密度为0,有人区根据土地利用类型将人口密度按照一定的权重划分成不同等级,每种土地利用类型设置一个权重(权重计算结果),将人口统计数据根据权重进行分配,得到人口数据空间化结果。

Fig. 5 The spatial disaggregation process of the multi-class dynamic mapping method shown by using population data as an example

总体来看,面积权重法和分区密度制图法原理简单,能够满足大尺度的社会经济统计数据空间化产品生产需求,但它们关于社会经济数据在一定空间范围均匀分布的假设容易在空间异质性较大的区域引起误差,这对实现更精细的空间化结果仍然存在挑战。

2.1.2 点插值法

点插值法也是一种传统的社会经济统计数据空间化方法,该方法的总体思路是首先在区域内选择控制点,并假设在控制点附近的权重较高,随着离控制点距离的增加权重逐渐衰减,进而插值出控制点周边地区的社会经济数据权重空间化图层,根据每个格网的权重,最终实现社会经济统计数据空间化[14]图6)。该方法的关键在于控制点的选择,通常选择社会经济数据密度比较高的点作为控制点进行插值。早期的点插值方法没有使用辅助数据,控制点通常选择各个统计单元的质心或形心,然而统计单元的质心或者形心通常不是社会经济数据分布最密集的区域,这往往会带来误差。为了提高空间化的精度,研究者们提出了使用带有社会经济统计数据空间信息的辅助数据作为控制点,例如,在人口空间化中,使用到了学校、工厂、交通设施等兴趣点数据作为控制点[14]。整体上看,在点插值方法中,前提假设是社会经济数据分布随着距离衰减,这对于社会经济数据空间分布比较离散的情况会带来较大误差,例如,在农村地区的人口空间化中,居民点通常比较分散,不会随着距离控制点的远近形成有规律的分布。
图6 以人口统计数据为例所展示的点插值法空间化过程

注:控制点的人口密度最高(假设为1),根据离控制点的距离的远近进行插值,得到空间化的权重插值结果,将人口数据按照权重进行分配,得到人口数据空间化结果。

Fig. 6 The spatial disaggregation process of the point interpolation method shown by using population data as an example

2.2 统计模型法

随着社会的发展和技术的进步,用于社会经济统计数据空间化的辅助数据越来越丰富。统计模型法能够更好地利用多源数据中的社会经济数据空间分布信息,从而更为有效地提高统计数据的空间化精度。统计模型法可归纳为多源数据加权分配法和多元回归模型法。

2.2.1 多源数据加权分配法

多源数据加权分配法是一种格网级别的空间化方法。这种方法的思路如图7所示:首先确定空间化的栅格单元;其次对辅助数据进行栅格化、重采样等处理,建立相同大小网格下的多源数据地理因子库[15];然后按照各辅助数据的贡献度对这些辅助数据赋以权重,得到各因子权重图层,并将各因子权重图层以相乘或相加等方式综合,得到综合后的权重图层;最后按照综合后的权重图层对社会经济统计数据进行加权分配。该方法的核心点在于确定各地理因子的权重图层,并对各权重图层进行数据综合以得到最终的权重图层。Yue等[16]提出人口分布拟合模型(SMPD),基于城镇范围、净初级生产力、道路交通网、土地利用等9种辅助数据,首先对各辅助数据图层分别进行处理,得到各辅助数据的因子权重图层(如水体区域的权重为0,其他区域的权重为1),然后将各辅助数据的因子权重图层以乘积的方式综合,生成综合后的权重图层,最后按照综合后的权重图层对统计单元的人口数据进行加权分配,从而实现人口数据的降尺度。Yue等[17]基于该模型进行了中国1 km×1 km格网大小的人口空间化制图,并由此分析了1930—2000年中国人口的时空分布。廖顺宝等[18]利用土地利用、海拔高度等数据分区设立栅格,通过对每个图层的权重相乘和加权求和两种综合方式,分别计算最终的权重,进而实现人口空间化,并对两种综合方式的效果进行了对比。叶宇等[19]利用最低通达成本路径和Voronoi图,以海拔和坡度作为修正参数,确定了土地利用、居民点、坡度、海拔、水系分布、铁路和公路交通等的权重,按照乘积的方式进行综合作为最终栅格的权重,在统计单元级别进行了人口空间化。随着辅助数据数量和质量的不断提高,能够表达的自然、人文、经济等要素的特征更加丰富,多源数据加权分配法具有综合利用不同数据源的优势,使得结果更加接近实际分布;但随着数据源的增多,不同数据之间关系复杂,需要采用更科学的数据处理方法以减轻数据冗余。
图7 以人口统计数据为例所展示的多源数据加权分配法空间化过程

注:首先按照统一的空间化格网,对辅助数据中的矢量数据和栅格数据进行矢量化、重采样等处理,构建地理因子库,并按照各辅助数据的贡献度对这些辅助数据赋以权重,得到各因子权重图层,然后将各因子权重图层以相乘或相加等方式综合,得到综合后的权重图层,最后按照综合后的权重图层对人口数据进行加权分配。

Fig. 7 The spatial disaggregation process of multi-source data weight allocation method shown by using population data as an example

2.2.2 多元回归模型法

多元回归模型法也是一种能够综合利用多源辅助数据特征的方法,其思路是首先进行多源辅助数据和社会经济统计数据的相关性分析,选出与社会经济数据相关性较高的辅助数据,在统计单元尺度下进行回归分析,建立社会经济统计数据与多个影响因子之间的回归模型,最后利用回归模型进行格网尺度的社会经济统计数据的预测和估算(图8)。多源辅助数据主要包括道路交通、人口密度、坡度数据、土地利用数据、夜光遥感数据等。多元回归模型包括多元线性回归模型、非线性回归模型等。在大尺度的空间化产品生产中,不同地区的社会经济数据的空间分布通常会存在较大差异,使用同一个回归模型进行拟合在不同区域会引起不同的误差,因此有学者对空间进行分块,对不同区域分别进行拟合,建立不同的模型进行社会经济统计数据空间化。例如,在人口空间化中,城镇人口密度较大,乡村地区人口密度较小,有学者根据辅助数据对研究区进行分块,分别建立模型,设置参数,这能够很好地避免空间化过程中造成的高值区低估、低值区高估的问题[20]。多元回归模型方法在进行精细格网制图中,会带来尺度问题,以统计单元为样本进行回归拟合建立的模型,应用到精细的格网尺度可能由于尺度不一致引起误差。
图8 以人口统计数据为例所展示的多元回归模型/机器学习模型法空间化过程

注:将辅助数据按统计单元尺度进行汇总,以一级统计单元的辅助数据作为自变量,人口统计数据作为因变量,进行回归或训练,得到一个多元回归模型或者机器学习模型;将栅格化后的地理因子库每个栅格的数据作为自变量,输入到训练好的模型中进行人口预测,得到人口数据空间化结果。

Fig. 8 The spatial disaggregation process of the multiple regression model/machine learning model method shown by using population data as an example

2.3 机器学习法

随着大数据时代的到来,在数据处理和信息提取的需求驱动下,机器学习方法得到了发展,并在社会经济统计数据空间化领域得到了应用。其思路与多元回归模型类似,首先使用统计单元的社会经济统计数据和辅助数据作为样本进行机器学习模型训练,建立地理因子库中的辅助数据与社会经济数据之间的模型关系,然后将栅格化后的地理因子库中每个栅格的数据作为自变量分别输入到训练好的模型中进行预测,以实现社会经济统计数据空间化(图8)。在社会经济统计数据空间化中使用较多的模型方法有决策树、随机森林、支持向量机、人工神经网络与深度学习等,其中随机森林模型是一种基于决策树的集成数据挖掘方法[8],它是很多大尺度人口数据集的主要生成方法。机器学习算法能够综合利用多源数据特征,并能够分析出地理因子库中不同图层对于社会经济统计数据影响的重要程度,但由于训练样本通常为以统计单元作为区域汇总的数据,而预测是以栅格为单元进行的,因此它也会存在尺度问题。
总之,不同的社会经济统计数据空间化方法具有各自的优缺点,在实际应用中,需要结合辅助数据的特点来选择最适合的方法。表1对各空间化方法的原理、假设条件和优缺点等方面的特点进行了归纳整理。
表1 各空间化方法的特点

Tab. 1 Characteristics of the spatial disaggregation methods

空间化方法 原理 输入数据 假设条件 优点 局限性 参考文献
面积权重法 将社会经济统计数据在各个统计单元内均匀展布,对每个格网内的社会经济数据按面积加权求和。 统计单元边界数据、社会经济统计数据。 社会经济数据在统计单元内分布均匀。 不依赖辅助数据。 社会经济数据空间分布差异较大的统计单元通常不能满足均匀分布这一假设,空间化结果误差较大。 [11]
二类分区密
度制图法
把空间划分为有社会经济数据的区域和无社会经济数据的区域,在有社会经济数据的区域对统计数据均匀展布,然后对每个格网内的社会经济数据按面积加权求和。 统计单元边界数据、社会经济统计数据、二类分区辅助数据。 在有社会经济数据的空间区域内,数据分布均匀。 能够排除无社会经济区域的干扰。 在有社会经济数据的区域,社会经济数据分布仍可能存空间差异,均匀展布会存在误差。 [12]
多类分区密
度制图法
把空间按照一定规则划分为多个分区,将社会经济数据按照一定的权重分别均匀展布到各个分区,然后对每个格网内的社会经济数据按面积加权求和。 统计单元边界数据、社会经济统计数据、多类分区辅助数据。 在每个分区内,社会经济数据分布均匀。 将空间划分为更精细的分区,能够得到更精细的社会经济统计数据空间化结果。 在一个分区内的社会经济数据空间分布通常也很难呈现均匀分布,因此无法在分区内进一步提高空间化精度。 [13]
点插值法 选择控制点,通过空间插值等方法计算权重栅格图层,将社会经济统计数据按照权重图层进行分配。 控制点数据、社会经济统计数据。 社会经济数据随着离控制点距离的变化而变化。 能够准确反映社会经济数据分布比较聚集的区域。 对于无控制点或者控制点附近社会经济数据分布比较离散的情况误差较大。 [14]
多源数据加
权分配法
对辅助数据进行栅格化、重采样等预处理,建立相同格网下的辅助数据库,按照各辅助数据的贡献度对这些辅助数据赋以权重,得到各因子权重图层,然后将各因子权重图层以相乘或相加等方式进行综合处理,得到综合权重图层,最后按照综合权重图层对社会经济统计数据进行加权分配。 社会经济统计数据、多源辅助数据。 社会经济数据与辅助数据分布具有相关性。 能够综合利用多源辅助数据的空间信息。 辅助数据库各图层之间可能存在数据冗余。 [15]
多元回归模型法/机器学
习法
把辅助数据通过栅格化或者重采样的方式预处理,建立相同格网下的辅助数据库。对每个统计单元内的辅助数据进行统计,得到统计单元级别的辅助数据库。利用行政单元级别的数据,拟合出辅助数据与社会经济数据的映射关系,最后利用各栅格的辅助数据对其社会经济数据值进行预测。 统计单元边界数据、社会经济统计数据、多源辅助数据。 社会经济数据与辅助数据具有相关性。 能够综合利用多源辅助数据的空间信息,可确定各个辅助数据对社会经济数据预测的重要程度。 在统计单元尺度拟合的模型,用在栅格尺度上,可能会存在尺度不同引起的误差。 [8,20]

3 辅助数据的发展

社会经济统计数据空间化是一个恢复统计数据精细空间位置信息的过程,这种信息增加的过程通常需结合具有空间位置信息的辅助数据来提高数据空间化的精度。随着社会的发展和技术的进步,用于社会经济统计数据空间化的辅助数据类型越来越多(图9),各种辅助数据的数据积累越来越丰富,其所包含的空间信息精度也越来越高。
图9 用于社会经济统计数据空间化的辅助数据发展过程

Fig. 9 The development of auxiliary data for spatial disaggregation of socioeconomic statistical data

在早期的社会经济统计数据空间化中,面积权重法没有使用辅助数据,它假设在一个统计单元内社会经济数据呈均匀分布,将社会经济数据在统计单元内进行均匀展布。由于这种假设在空间异质性较大的区域与实际情况不符,因此在数据空间化中容易产生较大的误差[11]
美国国防气象卫星计划(DMSP)的运行线扫描系统(OLS)夜间灯光数据是较早应用于社会经济统计数据空间化的辅助数据。1997年Sutton等[21]发现DMSP-OLS夜间灯光数据与人口密度具有高度相关性,并使用该数据进行了人口密度评估。此后,夜光遥感数据被广泛应用到社会经济统计数据空间化中。Tan等[22]利用夜光遥感数据和土地利用数据对中国区域2000年和2010年的人口数据进行了空间化,实现了1 km×1 km的人口格网制图,并进行了人口空间和时间变化的分析。Zhao等[6]结合了夜光遥感、网络媒体签到、土地利用等数据,利用3种不同的机器学习算法,进行了中国区域1 km×1 km人口格网制图。此外,夜光遥感数据可以估算地球表面人为产生的可见光—近红外发射的面积,因此可以用来反演人口的空间分布和GDP中第二、第三产业的分布。韩向娣等[23]研究夜光遥感数据与社会经济数据之间的空间相关性,分区分产业分析了全国县级地区生产总值以及第一、二、三产业与夜间灯光强度的相关性,并建立回归模型实现了中国区域GDP密度制图。夜光遥感数据能够很好地反映出城市地区的社会经济数据空间分布情况,然而对于夜间灯光相对较弱的农村地区,很难反应出社会经济数据的空间分布情况。
社会经济数据的空间分布与地理位置、地形要素、地貌形态等因素具有一定的相关性,通过综合利用多源数据中的社会经济数据空间分布信息,能够提高空间化结果的精度。董春等[15]首次提出建立地理因子库的概念,将地理因子库定义为描述每个空间单元内各种地理要素(因子)的量化值的数据库,并以人口数据空间化为例,使用居民区、河流、道路交通、坡度坡向、土地利用/土地覆盖等数据建立地理因子库,分析了人口与各个地理因子之间的相关性,通过加权分配法计算出贵州省1 km×1 km每个人口格网的权重。地理因子库中,通常会包含水系、道路交通、境界、居民区等矢量数据和数字高程模型、土地利用/土地覆盖等栅格数据。在实际应用中,可以根据实际需求选取与社会经济数据相关性较高的地理因子作为辅助数据建立地理因子库,通过统计模型法进行空间化实验。其中,土地利用/土地覆盖是一种在社会经济统计数据空间化中应用较为广泛的数据,不同类别的土地类型与人口、GDP等社会经济数据的相关性会存在差异,利用这种差异能够表达出社会经济统计数据的空间异质性。
在城市地区社会经济数据空间化的过程中,需要更加精细的辅助数据来提供准确的空间位置信息,研究者们尝试使用更高空间分辨率的数据。Lidar数据能够获取建筑物的三维信息,2010年Lu等[24]使用回归模型分析法,建立了建筑物体积和人口数量的关系,然而使用Lidar数据成本较高。2011年有学者提出使用高分辨率航拍影像能够精确提取居民建筑类型信息,结合数字地表模型(DSM)数据估算建筑物的体积,建立建筑物体积与人口的回归关系,能够有效提高人口空间化的精度[25]
近年来,随着移动互联网、物联网、智能移动终端的发展,地理信息大数据来源越来越丰富,其中包括公共交通、手机信令、签到数据、电子地图和GPS定位数据等。通过互联网获取的电子地图数据包含丰富的社会经济数据空间分布信息,2014年Bakillah等[5]首次使用了电子地图中的VGI(Volunteered Geographic Information)数据进行人口空间化实验,通过相关性分析,选用与人口空间分布相关性较高种类的POI数据,通过分区密度制图法实现了城市人口空间化,表明VGI数据中的POI数据能够作为社会经济数据空间化一种较好的辅助数据,之后POI数据得到了广泛的使用。位置服务(LBS)数据也是一种互联网技术发展的产物,它是指网络运营商通过外部定位方式获取使用者的位置信息,腾讯位置大数据是LBS的典型应用之一。吴中元等[26]使用腾讯位置大数据,建立了定位次数与人口密度的回归模型,准确地进行了南京市人口空间化;Zhao等[6]利用多源数据,包括微博签到数据、夜间灯光数据等进行了中国区域的人口空间化。手机信令数据能够提供每个信号基站的数据,它的分辨率由基站的分布决定。Liu等[27]提出了一种使用手机信令数据进行人口空间化的方法,并以武汉市为例实现了人口空间化和时空流动性分析。然而,移动电话基站的发射机有可变的有效发射功率,这使得基于手机信令数据生产的泰森多边形与实际无线覆盖范围不一致[28],而且由于涉及个人隐私问题,大范围手机信令数据不易获取,这也限制了手机信令数据应用于大范围社会经济统计数据空间化的研究。

4 现有的数据产品

在社会经济统计数据空间化研究中,最受关注的是人口空间化和GDP空间化两个领域[1],本节整理了全球和国家尺度的部分有代表性的人口和GDP空间化产品。对于其他的社会经济数据,如固定资产数据,国家和全球尺度的产品则比较缺乏,研究者们通常会结合实际需求,研发相应的产品。
国家或者全球尺度的人口空间化产品的空间分辨率大多为1 km左右,分辨率最高的产品为100 m(表2)。在人口空间化产品生产中,使用的方法比较多样化,有分区密度制图法、多元模型回归法、多源数据加权分配法、多元回归模型法、机器学习法等;使用到的数据源也比较多样化,其中土地利用、夜光遥感和POI数据较多,另外大众媒体数据也已经应用到大尺度的空间化制图中。除了全国和全球尺度的产品,研究者们也为特定的研究需求开发了其他数据集。Azar等[29]基于遥感影像、POI数据和土地利用等多源辅助数据开发的2007年巴基斯坦250 m分辨率的人口空间化数据产品;潘顺[30]生产了长三角地区的200 m分辨率的人口空间化数据产品,并用于研究长三角地区的人口空间分布格局;Liu等[27]使用手机信令数据生产了武汉市工作时间和非工作时间的1 km分辨率的人口空间化产品,分析了武汉市人口时空动态变化。
表2 国家至全球尺度的部分人口空间化数据产品

Tab. 2 Several population grid data products at national and global scales

数据空间范围及名称 辅助数据 方法 空间分辨率 覆盖年份 参考文献
美国 土地利用 分区密度制图法 30 m 2010 [35]
中国 夜间灯光、土地利用 分区密度制图法 1 km 2000、2010 [36]
中国 土地利用、夜间灯光 多元回归模型 1 km 1990、2000、2010 [37]
中国 POI、夜间灯光、NDVI、数字高程模型、道路 机器学习法 100 m 2010 [8]
中国 大众媒体数据、夜间灯光、土地利用、数字高程模型 机器学习法 1 km 2015 [6]
全球(GPW) 联合国人口普查数据、全球陆表水体数据 面积权重法 30 s 2000、2005、2010、2015、2020 [38]
全球(LandScan) 坡度、道路、土地覆盖、夜间灯光、城市密度 多源数据
加权分配法
30 s 2000—2020 [39]
全球(WorldPop) 土地利用、NPP、夜间灯光、数字高程模型、坡度、地表温度、降水、道路交通网、城乡边界、POI等 机器学习法 100 m 2000—2020 [40]
在GDP数据空间化大尺度的产品生产中(表3),使用的方法主要有回归模型法和机器学习法,产品空间分辨率大多为1 km左右,辅助数据中使用夜光遥感数据较多,但夜光遥感数据对于第一产业的信息表达并不理想,因此更多的辅助数据正在被应用到GDP空间化中,如土地利用数据、NDVI数据、POI数据等。研究者们根据实际需求生产相应的数据产品,如张爱华等[31]使用土地利用数据、POI数据和夜光遥感数据生产了北京市100 m分辨率的GDP空间化产品。
表3 国家至全球尺度的部分GDP空间化数据产品

Tab. 3 Several GDP grid data products at national and global scales

数据空间范围及名称 辅助数据 方法 空间分辨率 覆盖年份 参考文献
全球 夜间灯光 回归模型法 1度 1992 [41]
全球 夜间灯光、土地利用、生态系统服务价值 回归模型法 1 km 2001 [42]
美国和欧盟 夜间灯光 回归模型法 5 km 1993 [43]
中国 夜间灯光、人口数据 回归模型法 1 km 2000—2013 [44]
中国 夜间灯光、植被指数、土地利用、NPP、数字高程模型、地表温度、道路、POI数据 机器学习法 1 km 2010 [9]
除了人口和GDP数据以外,对于其他社会经济数据,研究者们针对实际需求生产了相应的产品,如吴吉东等[32]使用夜光遥感、人口空间化产品和道路交通等数据作为辅助数据,生产了中国范围的资产价值空间化数据产品;康相武等[33]将社会经济财产归为林业、农业、金融业等14类,通过建立各类社会经济财产数据与土地利用类型之间的关系,生产了河南省开封市社会经济财产空间分布数据;杨海霞[34]选取了高程、坡度、河流、土地利用等多个自然地理因子和社会经济因子,生产了东川和天水地区的建筑物空间化数据产品。这些数据产品为相应的研究提供了数据支撑。

5 问题与展望

5.1 空间化方法的制约因素和改进方向

经过近30多年的发展,社会经济统计数据空间化方法已从早期的面积权重法发展到近期的统计模型法和机器学习法,种类越来越丰富。在方法研究中,未来应针对多样化辅助数据的特点,一方面探索多学科领域算法在社会经济统计数据空间化中的可用性,另一方面需结合辅助数据和研究区的特点探索新的空间化算法;此外,现有方法存在的问题仍有待深入探讨与进一步改进,空间化方法的精度评价体系也有待进一步完善。
近年来,辅助数据的类型和数量均急剧增加,为更好地综合利用多样化辅助数据中的空间信息,未来需探索多学科领域算法在社会经济统计数据空间化中的应用。当辅助数据为样本点观测数据时,可以利用空间插值的方式进行“自下而上”的社会经济统计数据空间化产品生产。例如,利用Wang等[45]提出的“三明治”模型首先对具有空间异质性的样本点观测数据进行空间分区,然后对每个分区采用分层抽样的方式估算其统计数据密度,最后通过对每个报告单元内各分区的统计数据密度加权求和得到报告单元的统计数据,若将报告单元设置为格网形式,“三明治”模型的输出结果即为空间化产品。可见,利用“三明治”模型可以通过“自下而上”的方式来生产社会经济数据空间化产品,这为样本点观测数据的抽样方式和基于样本点观测数据进行空间化产品生产提供了指导。当可获取的辅助数据较多时,需要选择与社会经济数据空间相关性较高的辅助数据。社会经济数据通常具有空间分异性,然而统计数据丢失了统计单元内的空间分布信息,空间化方法则需要选择与社会经济数据空间相关性较高的辅助数据,从而将它们所体现的空间分异性应用到社会经济数据中,确定社会经济统计数据在统计单元内的空间分布情况。空间分异性与空间相关性统计方法可以帮助分析各辅助数据与社会经济数据的相关性,为选择辅助数据以及建立高质量的辅助数据库提供指导。例如,地理因子探测器是探测空间分异性,揭示其背后驱动力的一组统计学方法,它可以分析自变量对因变量空间分异的解释程度[46],如果将社会经济统计数据作为因变量,各辅助数据作为自变量,通过地理因子探测器分析各辅助数据对社会经济统计数据的解释程度,则能够为筛选空间相关性较高的辅助数据提供参考。针对栅格化后的多源辅助数据库,在对这些数据进行综合利用时,可以借鉴遥感图像融合的一些算法[47],从而有利于更有效地提取多源辅助数据的空间信息。例如,遥感图像像素级融合算法中的主成分变换、小波变换等算法,可以对存在信息冗余的辅助数据栅格图层进行压缩,进而从大量辅助数据中提取关键的空间信息特征,从而可提高空间化结果的效率和精度。遥感图像特征级融合的算法,能够提取并融合辅助数据库中各栅格图层的边缘、轮廓、纹理等特征,可得到辨识度更高的特征,从而可以更加清晰地展示社会经济统计数据的空间分布信息。遥感图像时空融合算法,其首先建立相同时相高分辨影像和低分辨率影像对应像素之间的映射模型,然后利用该映射模型来预测低分辨率影像所对应的高分辨率影像[48],这种通过已知数据学习模型来预测未知数据的思想可以被应用到社会经济统计数据空间化中。例如,使用卷积神经网络学习遥感影像和现有人口空间化产品之间的对应关系模型[49],可以用来预测未知区域的人口。总之,不同学科领域的知识可以为选择和处理日益多样化的辅助数据提供指导,不同学科领域的方法也可以为辅助数据的空间信息提取提供参考,这些方法在社会经济统计数据空间化中的应用也将更加广泛。
随着近年来辅助数据的数量急剧增加,基于数据驱动的机器学习算法已经被广泛应用于社会经济统计数据空间化。随机森林算法已成为多个空间化产品的生产方法[9,40]。深度学习是机器学习的又一个浪潮,深度学习算法的研究成果在很多领域得到了广泛应用,学者们也根据自己的研究领域对其算法不断创新改进,以适用于不同领域。在社会经济数据估算中,Hu等[50]使用卷积神经网络预测了印度农村地区的人口密度,Huang等[49]使用多种卷积神经网络建立了哨兵二号卫星影像和LandScan人口空间化产品之间的对应关系,并由此对比评估了多种方法的精度。针对深度学习方法在社会经济统计数据空间化应用的深入研究将是未来空间化方法的一个发展趋势。
现有的社会经济统计数据空间化方法仍受到很多因素的制约,影响空间化方法精度的因素仍有待进一步探讨。如社会经济统计数据空间化中辅助数据与统计数据存在时相不匹配问题:社会经济统计数据通常是经过一段时间统计得到,而辅助数据通常是在某个时刻获取,这种差异会带来时相不匹配的问题,进而影响社会经济统计数据空间化的精度。空间化过程中栅格分辨率的选择也是一个影响空间化结果精度的因素,通常情况下,选用空间分辨率较低的格网,能够相对地提高空间化结果的精度,但会丢失更多的细节信息;选用空间分辨率较高的格网,能够更精细地展示社会经济数据空间细节信息,但可能会受到辅助数据信息的空间精度限制,导致细节信息精度不高,在实际应用中,需要根据辅助数据的类型和质量,选择合适的栅格分辨率,以平衡精度和分辨率的需求,充分发挥辅助数据的作用。
社会经济统计数据空间化的精度评价指标和验证数据仍有待进一步完善。在现有的空间化产品精度验证中,通常是在一个统计单元内对空间化后的社会经济数据进行统计,然后与统计单元数据作比较[6,49]。然而,对于每个栅格往往由于缺少实地调查数据而无法直接进行栅格的精度验证。未来的工作需要加强格网内空间化的社会经济统计数据的实地调查和采集工作,并进行GIS的集成,进而为空间化的结果验证提供有效的数据支持。

5.2 新型辅助数据的探索和多源辅助数据的综合利用

随着大数据时代的到来,社会经济统计数据空间化可以使用的辅助数据越来越丰富,数据的质量也越来越高,未来可以尝试探索新型辅助数据在社会经济统计数据空间化中的更多应用价值,同时需要结合现有辅助数据和新型辅助数据,优化空间化结果。
近年来随着遥感技术的发展,遥感卫星正源源不断地获取数据,卫星遥感影像的时空分辨率也不断提高,遥感数据包含了大范围社会经济数据的空间分布信息,通过遥感数据反演社会经济数据,能够快速估算出其覆盖范围内的社会经济数据,这使得大范围、高时效的社会经济数据空间化产品生产成为可能。随着智能手机的广泛使用,使得通过手机定位系统和手机信令等技术能够获取高精度人口流动信息,LBS数据和手机信令数据已经被应用到城市级别的人口空间动态分布中[6,26]。互联网和交通部门提供的社交网站签到数据、电子地图POI数据、道路交通和公交刷卡等数据可以反映城市内人口动态分布特征。手机和互联网技术为时空数据信息挖掘提供给了新的资源,大数据的空间属性越来越强,未来大数据在社会经济统计数据空间分布模拟研究中的应用会更加广泛,如何深入挖掘大数据在社会经济统计数据空间化研究中的价值,将成为未来研究的一个重要课题。
在目前的社会经济统计数据空间化研究中,使用较多的辅助数据主要包括土地利用数据、夜光遥感数据、道路交通数据等。近年来社会经济数据空间化可利用的新型辅助数据越来越丰富,从卫星遥感数据到具有精确地理位置信息和实时动态变化的手机信令数据、网络文本等大数据,可以获取的信息量越来越大、精度也越来越高,这为社会经济数据空间化精度提高,特别是动态空间数据的生成和应用提供了可能。将这些新兴的辅助数据与现有的数据相结合,提出高精度、高效率的空间化模型和方法,综合利用不同辅助数据的特点,挖掘更精确、更有时效性的社会经济数据信息,进行高精度的时空动态分析将是未来的研究方向之一。

5.3 高时空分辨率和高精度数据产品研发

在空间分辨率方面,现有的社会经济统计数据空间化产品中,全球、国家尺度的产品通常使用的格网分辨率是1 km左右,在地区或者城市范围以下的研究中,通常需要30 m、100 m、200 m等空间分辨率的数据产品。现有的全球尺度、国家尺度的格网人口数据,在研究小区域的社会经济数据空间分布特征时,其空间分辨率和精度通常不能满足应用需求。如潘顺[30]在长三角人口空间分布特征的研究中,认为现有的大尺度产品无法满足精度和分辨率的需求,因此通过回归模型法结合多源辅助数据,生产了200 m×200 m分辨率的长三角地区人口空间化数据。在时间分辨率方面,全球、全国尺度的社会经济统计数据空间化产品的时间分辨率通常为1年,且对未来社会经济数据进行预测的空间化产品的时间分辨率更粗,因此无法满足一些研究中对过去和未来高时间分辨率的社会经济数据分析的需求,如研究人口流动、城市内部人口活动等情况下,需要季节、月、日时间尺度的相应数据产品。
随着社会的发展,社交媒体数据和手机信令等新兴辅助数据逐渐丰富,这些数据包含了精确的空间位置信息,且这些数据的时间分辨率相比于土地利用、夜光遥感等数据有着较大的优势,这使得高时间分辨率的动态分布空间化产品生产成为可能。Liu等[27]使用手机信令数据生产了武汉市一天内工作时间和非工作时间人口分布产品,张雪霞等[51]使用手机信令数据生产了上海市小活动范围人群的分布产品等,这些产品具有较高的时间分辨率。目前,在社会经济统计数据时空动态分布的研究中,大多集中在城市或者地级市尺度,通常需要针对实际应用问题来生产相应范围的产品,对于大尺度的城市间人口流动和人口活动范围分析较少,且缺少相关的数据支持。未来可以结合新兴的辅助数据,生产大尺度的高时间分辨率的社会经济数据空间化实时动态的产品。
同时,在城市规划、经济区域发展规划等研究需求的驱动下,进行长时间序列社会经济数据预测及空间化产品生产也是一个重要的研究方向。Yue等[52]基于当时中国的人口及其增长率等统计数据,预测了中国2010—2020年10年一期的人口统计数据,并使用人口分布拟合(SMPD)模型将预测数据空间化,分析了中国人口未来的时空分布。Murakami等[53]使用全球人口和GDP在1980—2000年的统计数据和2010—2100年的预测数据,生产了10年一期0.5°空间分辨率的全球人口和GDP产品。
随着社会的发展和科学技术的进步,社会经济统计数据空间化可以使用的辅助数据的分辨率和精度也在不断提高,同时伴随着实际应用中对空间化的精度需求也越来越高。提高社会经济统计数据空间化产品的精度则意味着需要更精确地刻画其空间异质性。在现有的大尺度空间化产品生产中,通常采用土地利用/土地覆盖、夜光遥感、DEM数据等作为辅助数据[2],然而这些数据还不足以精确刻画社会经济数据的空间异质性。如夜光遥感数据通常不能准确地反映农村地区的社会经济数据信息;土地利用数据无法反映每个类别的类内异质性,例如,城镇地区地表类型比较复杂,包括了道路交通、居民区、商业区等,在进行社会经济统计数据空间化的过程中,如果仅仅使用土地利用数据则很难反映出这些细节上的变化。为更好地刻画社会经济数据的空间异质性,更精确的辅助数据已经得到了应用,如高分辨率遥感影像[29]、Lidar数据[54]、POI数据[5]等已经被应用到社会经济统计数据的空间化方法研究中。Ye等[8]使用POI数据在全国尺度上进行实验,实现了全国100 m分辨率的格网人口制图,结果表明高分辨率的数据能够提高空间异质性的信息表达,进而提高空间化产品的分辨率和精确度。在全国或者全球尺度产品的生产中,可以尝试使用更高分辨率的辅助数据,提出更有效的多源辅助数据综合利用的方法,以准确刻画大尺度的社会经济统计数据的空间异质性,从而生产出更高精确度、更高分辨率的产品。
[1]
Wu Jidong, Wang Xu, Wang Cailin, et al. The status and development trend of disaggregation of socio-economic data. Journal of Geo-Information Science, 2018, 20(9): 1252-1262.

吴吉东, 王旭, 王菜林, 等. 社会经济数据空间化现状与发展趋势. 地球信息科学学报, 2018, 20(9): 1252-1262.]

DOI

[2]
Li Fei, Zhang Shuwen, Yang Jiuchun, et al. A review on research about spatialization of socioeconomic data. Geography and Geo-Information Science, 2014, 30(4): 102-107.

[李飞, 张树文, 杨久春, 等. 社会经济数据空间化研究进展. 地理与地理信息科学, 2014, 30(4): 102-107.]

[3]
Yue T X, Zhao N, Liu Y, et al. A fundamental theorem for eco-environmental surface modelling and its applications. Science China Earth Sciences, 2020, 63(8): 1092-1112.

DOI

[4]
Ma Jing, Jiao Wenxian. A review on pixelizing of social statistical data. Future and Development, 2008, 29(3): 25-28.

[马静, 焦文献. 我国社会统计数据空间化研究综述. 未来与发展, 2008, 29(3): 25-28.]

[5]
Bakillah M, Liang S, Mobasheri A, et al. Fine-resolution population mapping using OpenStreetMap points-of-interest. International Journal of Geographical Information Science, 2014, 28(9): 1940-1963.

DOI

[6]
Zhao S, Liu Y X, Zhang R, et al. China's population spatialization based on three machine learning models. Journal of Cleaner Production, 2020, 256: 120644. DOI: 10.1016/j.jclepro.2020.120644.

DOI

[7]
Deville P, Linard C, Martin S, et al. Dynamic population mapping using mobile phone data. PNAS, 2014, 111(45): 15888-15893.

DOI PMID

[8]
Ye T T, Zhao N Z, Yang X C, et al. Improved population mapping for China using remotely sensed and points-of-interest data within a random forests model. Science of the Total Environment, 2019, 658: 936-946.

DOI

[9]
Chen Q, Ye T T, Zhao N Z, et al. Mapping China's regional economic activity by integrating points-of-interest and remote sensing data with random forest. Environment and Planning B: Urban Analytics and City Science, 2021, 48(7): 1876-1894.

DOI

[10]
Zhu X B, Ma M, Yang H, et al. Modeling the spatiotemporal dynamics of gross domestic product in China using extended temporal coverage nighttime light data. Remote Sensing, 2017, 9(6): 626. DOI: 10.3390/rs9060626.

DOI

[11]
Goodchild M F, Anselin L, Deichmann U. A framework for the areal interpolation of socioeconomic data. Environment and Planning A: Economy and Space, 1993, 25(3): 383-397.

DOI

[12]
Eicher C L, Brewer C A. Dasymetric mapping and areal interpolation: Implementation and evaluation. Cartography and Geographic Information Science, 2001, 28(2): 125-138.

DOI

[13]
Su M D, Lin M C, Hsieh H I, et al. Multi-layer multi-class dasymetric mapping to estimate population distribution. Science of the Total Environment, 2010, 408(20): 4807-4816.

DOI

[14]
Zhang C Y, Qiu F. A point-based intelligent approach to areal interpolation. The Professional Geographer, 2011, 63(2): 262-276.

DOI

[15]
Dong Chun, Liu Jiping, Zhao Rong, et al. An discussion on correlation of geographical parameter with spatial population distribution. Remote Sensing Information, 2002, 17(4): 61-64.

董春, 刘纪平, 赵荣, 等. 地理因子与空间人口分布的相关性研究. 遥感信息, 2002, 17(4): 61-64.]

[16]
Yue T X, Wang Y A, Chen S, et al. Numerical simulation of population distribution in China. Population and Environment, 2003, 25(2): 141-163.

DOI

[17]
Yue T X, Wang Y A, Liu J Y, et al. Surface modelling of human population distribution in China. Ecological Modelling, 2005, 181(4): 461-478.

DOI

[18]
Liao Shunbao, Sun Jiulin. GIS-based spatialization of population data in the Qinghai-Tibet Plateau. Act Geographica Sinica, 2003, 58(1): 25-33.

[廖顺宝, 孙九林. 基于GIS的青藏高原人口统计数据空间化. 地理学报, 2003, 58(1): 25-33 ]

[19]
Ye Yu, Liu Gaohuan, Feng Xianfeng. Presentation of spatial distribution of population and its application. Geo-Information Science, 2006, 8(2): 59-65.

叶宇, 刘高焕, 冯险峰. 人口数据空间化表达与应用. 地球信息科学, 2006, 8(2): 59-65.]

[20]
Cheng Fanglong, Zhao Guanwei. Fine-scale simulation of population distribution based on zoning strategy and machine learning. Science of Surveying and Mapping, 2020, 45(9): 165-173.

[成方龙, 赵冠伟. 分区策略与机器学习的人口分布精细化模拟. 测绘科学, 2020, 45(9): 165-173.]

[21]
Sutton P. Modeling population density with night-time satellite imagery and GIS. Computers, Environment and Urban Systems, 1997, 21(3-4): 227-244.

[22]
Tan M H, Li X B, Li S J, et al. Modeling population density based on nighttime light images and land use data in China. Applied Geography, 2018, 90: 239-247.

DOI

[23]
Han Xiangdi, Zhou Yi, Wang Shixin, et al. GDP spatialization in China based on nighttime imagery. Journal of Geo-Information Science, 2012, 14(1): 128-136.

DOI

[韩向娣, 周艺, 王世新, 等. 夜间灯光遥感数据的GDP空间化处理方法. 地球信息科学学报, 2012, 14(1): 128-136.]

DOI

[24]
Lu Z Y, Im J, Quackenbush L, et al. Population estimation based on multi-sensor data fusion. International Journal of Remote Sensing, 2010, 31(21): 5587-5604.

DOI

[25]
Ural S, Hussain E, Shan J. Building population mapping with aerial imagery and GIS data. International Journal of Applied Earth Observation and Geoinformation, 2011, 13(6): 841-852.

DOI

[26]
Wu Zhongyuan, Xu Hanwei, Hu Zhongmin. Fine-scale population spatialization based on tencent location big data: A case study of moling subdistrict, Jiangning District, Nanjing. Geography and Geo-Information Science, 2019, 35(6): 61-65.

[吴中元, 许捍卫, 胡钟敏. 基于腾讯位置大数据的精细尺度人口空间化: 以南京市江宁区秣陵街道为例. 地理与地理信息科学, 2019, 35(6): 61-65.]

[27]
Liu L B, Peng Z H, Wu H, et al. Exploring urban spatial feature with dasymetric mapping based on mobile phone data and LUR-2SFCAe Method. Sustainability, 2018, 10(7): 2432. DOI: 10.3390/su10072432.

DOI

[28]
Zhu Shoujie, Du Shihong, Li Jun, et al. Estimating population distribution in cities and towns though fusing multi-source spatial data. Journal of Geo-Information Science, 2020, 22(8): 1607-1616.

[朱守杰, 杜世宏, 李军, 等. 融合多源空间数据的城镇人口分布估算. 地球信息科学学报, 2020, 22(8): 1607-1616.]

DOI

[29]
Azar D, Engstrom R, Graesser J, et al. Generation of fine-scale population layers using multi-resolution satellite imagery and geospatial data. Remote Sensing of Environment, 2013, 130: 219-232.

DOI

[30]
Pan Shun. Grid-based population data in Yangtze River Delta and analysis of its spatial distribution characteristics[D]. Shanghai: Shanghai Normal University, 2016.

[潘顺. 长三角人口数据格网化及其人口空间分布特征分析[D]. 上海: 上海师范大学, 2016.]

[31]
Zhang Aihua, Pan Yaozhong, Ming Yanfang, et al. Research of GDP spatialization based on multi-source information coupling: A case study in Beijing. Remote Sensing Technology and Application, 2021, 36(2): 463-472.

[张爱华, 潘耀忠, 明艳芳, 等. 多源信息耦合的GDP空间化研究: 以北京市为例. 遥感技术与应用, 2021, 36(2): 463-472.]

[32]
Wu J D, Li Y, Li N, et al. Development of an asset value map for disaster risk assessment in China by spatial disaggregation using ancillary remote sensing data. Risk Analysis: An Official Publication of the Society for Risk Analysis, 2018, 38(1): 17-30.

[33]
Kang Xiangwu, Wu Shaohong, Dai Erfu, et al. Research on the spatializiation method of regional socio-economic assets data. China Soft Science, 2006(8): 104-108.

[康相武, 吴绍洪, 戴尔阜, 等. 区域社会经济财产数据空间化方法研究. 中国软科学, 2006(8): 104-108.]

[34]
Yang Haixia. Research on gridding method of buildings' spatial distribution[D]. Beijing: Institute of Earthquake Prediction, China Earthquake Administration, 2015.

[杨海霞. 建筑物空间分布格网化方法研究[D]. 北京: 中国地震局地震预测研究所, 2015.]

[35]
Dmowska A, Stepinski T F. A high resolution population grid for the conterminous United States: The 2010 edition. Computers, Environment and Urban Systems, 2017, 61: 13-23.

DOI

[36]
Li X M, Zhou W Q. Dasymetric mapping of urban population in China based on radiance corrected DMSP-OLS nighttime light and land cover data. Science of the Total Environment, 2018, 643: 1248-1256.

DOI

[37]
Wang L T, Wang S X, Zhou Y, et al Mapping population density in China between 1990 and 2010 using remote sensing. Remote Sensing of Environment, 2018, 210: 269-281.

DOI

[38]
Doxsey-Whitfield E, MacManus K, Adamo S B, et al. Taking advantage of the improved availability of census data: A first look at the gridded population of the world, Version 4. Papers in Applied Geography, 2015, 1(3): 226-234.

DOI

[39]
Dobson J, Bright E, Coleman P, et al. LandScan: A global population database for estimating populations at risk. Photogrammetric Engineering and Remote Sensing, 2000, 66: 849-857.

[40]
Stevens F R, Gaughan A E, Linard C, et al. Disaggregating census data for population mapping using random forests with remotely-sensed and ancillary data. PLOS ONE, 2015, 10(2): e0107042. DOI: 10.1371/journal.pone.0107042.

DOI

[41]
Doll C N H, Muller J P, Elvidge C D. Night-time imagery as a tool for global mapping of socioeconomic parameters and greenhouse gas emissions. Ambio, 2000, 29(3): 157-162.

DOI

[42]
Sutton P C, Costanza R. Global estimates of market and non-market values derived from nighttime satellite imagery, land cover, and ecosystem service valuation. Ecological Economics, 2002, 41(3): 509-527.

DOI

[43]
Doll C N H, Muller J P, Morley J G. Mapping regional economic activity from night-time light satellite imagery. Ecological Economics, 2006, 57(1): 75-92.

DOI

[44]
Zhao N Z, Liu Y, Cao G F, et al. Forecasting China's GDP at the pixel level using nighttime lights time series and population images. GIScience & Remote Sensing, 2017, 54(3): 407-425.

[45]
Wang J F, Haining R, Liu T J, et al. Sandwich estimation for multi-unit reporting on a stratified heterogeneous surface. Environment and Planning A: Economy and Space, 2013, 45(10): 2515-2534.

DOI

[46]
Wang Jinfeng, Xu Chengdong. Geodetector: Principle and prospective. Acta Geographica Sinica, 2017, 72(1): 116-134.

DOI

王劲峰, 徐成东. 地理探测器: 原理与展望. 地理学报, 2017, 72(1): 116-134.]

DOI

[47]
Li Shutao, Li Congyu, Kang Xudong. Development status and future prospects of multi-source remote sensing image fusion. National Remote Sensing Bulletin, 2021, 25(1): 148-166.

[李树涛, 李聪妤, 康旭东. 多源遥感图像融合发展现状与未来展望. 遥感学报, 2021, 25(1): 148-166.]

[48]
Chen Y H, Shi K X, Ge Y, et al. Spatiotemporal remote sensing image fusion using multiscale two-stream convolutional neural networks. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-12. DOI: 10.1109/TGRS.2021. 3069116.

DOI

[49]
Huang X, Zhu D, Zhang F, et al. Sensing population distribution from satellite imagery via deep learning: Model selection, neighboring effects, and systematic biases. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 5137-5151.

DOI

[50]
Hu W J, Patel J H, Robert Z A, et al. Mapping missing population in rural India: A deep learning approach with satellite imagery//2nd AAAI/ACM Conference on AI, Ethics, and Society. Honolulu, HI, USA. New York: ACM, 2019: 353-359.

[51]
Zhang Xuexia, Wu Sheng, Zhao Zhiyuan, et al. Spatial distribution characteristics of people with small activity space in urban based on mobile phone signaling data. Journal of Geo-Information Science, 2021, 23(8): 1433-1445.

张雪霞, 吴升, 赵志远, 等. 基于手机信令数据的城市小活动空间人群空间分布特征. 地球信息科学学报, 2021, 23(8): 1433-1445.]

DOI

[52]
Yue T X, Wang Y A, Liu J Y, et al. SMPD scenarios of spatial distribution of human population in China. Population and Environment, 2005, 26(3): 207-228.

DOI

[53]
Murakami D, Yamagata Y. Estimation of gridded population and GDP scenarios with spatially explicit statistical downscaling. Sustainability, 2019, 11(7): 2106. DOI: 10.3390/su11072106.

DOI

[54]
Dong P L, Ramesh S, Nepali A. Evaluation of small-area population estimation using LiDAR, Landsat TM and parcel data. International Journal of Remote Sensing, 2010, 31(21): 5571-5586.

DOI

Outlines

/