人口密度随机森林模型优化实验研究

doi:10.11821/dlxb202305015

[1]

Zhang

Shanyu

.

Introduction to Population Geography. Shanghai: East China Normal University Press, 2013: 183-186.

[本文引用: 1]

[ 张善余. 人口地理学概论. 上海: 华东师范大学出版社, 2013: 183-186.]

[本文引用: 1]

[2]

Clarke

J I

, Rhind

D W

, Becket

C

, et al.

Population data and global environmental change

Paris: The International Social Science Council, 1992.

[本文引用: 1]

[3]

Wardrop

N A

, Jochem

W C

, Bird

T J

, et al.

Spatially disaggregated population estimates in the absence of national population and housing census data

PNAS, 2018, 115(14): 3529-3537.

DOI:10.1073/pnas.1715305115 PMID:29555739 [本文引用: 1]

Population numbers at local levels are fundamental data for many applications, including the delivery and planning of services, election preparation, and response to disasters. In resource-poor settings, recent and reliable demographic data at subnational scales can often be lacking. National population and housing census data can be outdated, inaccurate, or missing key groups or areas, while registry data are generally lacking or incomplete. Moreover, at local scales accurate boundary data are often limited, and high rates of migration and urban growth make existing data quickly outdated. Here we review past and ongoing work aimed at producing spatially disaggregated local-scale population estimates, and discuss how new technologies are now enabling robust and cost-effective solutions. Recent advances in the availability of detailed satellite imagery, geopositioning tools for field surveys, statistical methods, and computational power are enabling the development and application of approaches that can estimate population distributions at fine spatial scales across entire countries in the absence of census data. We outline the potential of such approaches as well as their limitations, emphasizing the political and operational hurdles for acceptance and sustainable implementation of new approaches, and the continued importance of traditional sources of national statistical data.Copyright © 2018 the Author(s). Published by PNAS.

[4]

Zhang

Congxuan

.

Using latitude and longitude grid cells to compile a population density map: Taking the Beijing-Tianjin-Tangshan area as an example

Areal Research and Development, 1985, 4(2): 57-66.

[本文引用: 1]

[ 张丛宣.

用经纬网格单元编制人口密度图: 以京津唐地区为例

中原地理研究, 1985, 4(2): 57-66.]

[本文引用: 1]

[5]

Tobler

W

, Deichmann

U

, Gottsegen

J

, et al.

World population in a grid of spherical quadrilaterals

International Journal of Population Geography, 1997, 3(3): 203-225.

DOI:10.1002/(SICI)1099-1220(199709)3:3<203::AID-IJPG68>3.0.CO;2-C PMID:12348289 [本文引用: 1]

"We report on a project that converted subnational population data to a raster of cells on the earth. We note that studies using satellites as collection devices yield results indexed by latitude and longitude. Thus it makes sense to assemble the terrestrial arrangement of people in a compatible manner. This alternative is explored here, using latitude/longitude quadrilaterals as bins for population information.... The results to date of putting world boundary coordinates together with estimates of the number of people are described. The estimated 1994 population of 219 countries, subdivided into 19,032 polygons, has been assigned to over six million five minute by five minute quadrilaterals covering the world."excerpt

[6]

Liu

Jinsong

.

The geographical meaning about the modifiable areal unit problem in the population density scaling[D]. Shijiazhuang: Hebei Normal University, 2009.

[本文引用: 2]

[ 刘劲松. 人口密度尺度推绎中可塑性面积单元问题的地理学解释[D]. 石家庄: 河北师范大学, 2009.]

[本文引用: 2]

[7]

Doxsey-Whitfield

E

, MacManus

K

, Adamo

S B

, et al.

Taking advantage of the improved availability of census data: A first look at the gridded population of the world, Version 4

Applied Geography, 2015, 1(3): 226-234.

[本文引用: 2]

[8]

Freire

S

, Macmanus

K

, Pesaresi

M

, et al.

Development of new open and free multi-temporal global population grids at 250m resolution. The 19th AGILE Conference on Geographic Information Science, Helsink: Springer Cham, 2016: 14-16.

[本文引用: 2]

[9]

Frye

C

, Nordstrand

E

, Wright

D J

, et al.

Using classified and unclassified land cover data to estimate the footprint of human settlement

Data Science Journal, 2018, 17(20): 1-12.

DOI:10.5334/dsj-2018-001 URL [本文引用: 2]

[10]

Dobson

J E

, Bright

E A

, Coleman

P R

, et al.

LandScan: A global population database for estimating populations at risk

Photogrammetric Engineering and Remote Sensing, 2000, 66(7): 849-857.

[本文引用: 1]

[11]

Lo

C P

.

Modeling the population of China using DMSP operational linescan system nighttime data

Photogrammetric Engineering and Remote Sensing, 2001, 67(9): 1037-1047.

[本文引用: 1]

[12]

Jiang

Dong

, Yang

Xiaohuan

, Wang

Naibin

.

Study on spatial distribution of population based on remote sensing and GIS

Advance in Earth Science, 2002, 17(5): 734-738.

[本文引用: 1]

[ 江东, 杨小唤, 王乃斌, 等.

基于RS、GIS的人口空间分布研究

地球科学进展, 2002, 17(5): 734-738.]

DOI:10.11867/j.issn.1001-8166.2002.05.0734 [本文引用: 1]

人口的空间分布问题涉及人口学、经济学、地理学等多个学科，统计型人口数据的空间化是"数字地球"的重要研究内容。阐述了人口地域分布的基本理论，回顾了人口空间分布的研究进展，结合研究实践，提出了在遥感、GIS技术支持下，统计型人口数据空间化的研究思路和技术流程，并对该方法的特点和应用前景做了展望。

[13]

Goldewijk

K K

, Ramankutty

N

.

Land cover change over the last three centuries due to human activities: The availability of new global datasets

GeoJournal, 2004, 61: 335-344.

DOI:10.1007/s10708-004-5050-z URL [本文引用: 1]

[14]

Tian

Yongzhong

, Chen

Shupeng

, Yue

Tianxiang

, et al.

Simulation of Chinese population density based on land-use

Acta Geographica Sinica, 2004, 59(2): 283-292.

[本文引用: 1]

[ 田永中, 陈述彭, 岳天祥, 等.

基于土地利用的中国人口密度模拟

地理学报, 2004, 59(2): 283-292.]

[本文引用: 1]

[15]

Goldewijk

K K

.

Three centuries of global population growth: A spatial referenced population (density) database for 1700-2000

Population and Environment, 2005, 26(4): 343-367.

[本文引用: 1]

[16]

Goldewijk

K K

, Beusen

A

, Van

Drecht G

, et al.

The HYDE 3.1 spatially explicit database of human-induced global land-use change over the past 12,000 years

Global Ecology and Biogeography, 2011, 20(1): 73-86.

[本文引用: 2]

[17]

Zhuo

Li

, Chen

Jin

, Shi

Peijun

, et al.

Modeling population density of China in 1998 based on DMSP/OLS nighttime light image

Acta Geographica Sinica, 2005, 60(2): 266-276.

DOI:10.11821/xb200502010 [本文引用: 1]

Spatial distribution of population density is crucial for analyzing the relationship among economic growth, environment protection and resource utilization. In this study, population density of China in 1998 at 1-km resolution grids was simulated by integrating DMSP/OLS non-radiance calibrated nighttime light image, SPOT/VEGETATION 10-day maximum NDVI data, population census data and vector data of county boundary. Not only the population density in light patches but also that out of them was estimated in four types of areas. For each area, in light patches, the model for population density estimation was developed based on the significant correlation between light intensity and population, and in "dark area", the models for population density estimation were developed based on Coulomb's law and field superposing theory. Compared with the existed methods for spatializing population density, our method is simpler and more cost saving. The result of the study is consistent with those of other researches on the whole, but the spatial difference is more distinct and the information is richer. The maximum population density simulated is 41096 persons/km2 and average population density at inhabitable area of China is 189 persons/km2. It indicates that the 1-km resolution non-radiance calibrated DMSP/OLS nighttime lights image has the potential to provide population density estimation at 1-km grids.

[ 卓莉, 陈晋, 史培军, 等.

基于夜间灯光数据的中国人口密度模拟

地理学报, 2005, 60(2): 266-276.]

[本文引用: 1]

[18]

Amaral

S

, Monteiro

A M V

, Camara

G

, et al.

DMSP/OLS nighttime light imagery for urban population estimates in the Brazilian Amazon

International Journal of Remote Sensing, 2006, 27(5): 855-870.

DOI:10.1080/01431160500181861 URL [本文引用: 1]

[19]

Bhaduri

B

, Bright

E

, Coleman

P

, et al.

LandScan USA: A high-resolution geospatial and temporal modeling approach for population distribution and dynamics

GeoJournal, 2007, 69: 103-117.

DOI:10.1007/s10708-007-9105-9 URL [本文引用: 2]

[20]

Briggs

D J

, Gulliver

J

, Fecht

D

, et al.

Dasymetric modelling of small area population distribution using land cover and light emissions data

Remote Sensing of Environment, 2007, 108(4): 451-466.

DOI:10.1016/j.rse.2006.11.020 URL [本文引用: 1]

[21]

Zeng

C Q

, Zhou

Y

, Wang

S X

, et al.

Population spatialization in China based on night-time imagery and land use data

International Journal of Remote Sensing, 2011, 32(24): 9599-9620.

DOI:10.1080/01431161.2011.569581 URL [本文引用: 1]

[22]

Gao

Yi

, Wang

Hui

, Wang

Peitao

, et al.

Population spatial processing for Chinese coastal zones based on census and multiple night light data

Resources Science, 2013, 35(12): 2517-2523.

[本文引用: 1]

[ 高义, 王辉, 王培涛, 等.

基于人口普查与多源夜间灯光数据的海岸带人口空间化分析

资源科学, 2013, 35(12): 2517-2523.]

[本文引用: 1]

[23]

Tatem

A J

.

WorldPop, open data for spatial demography

Scientific Data, 2017, 4: 170004. DOI: 10.1038/sdata.2017.4.

[本文引用: 3]

High resolution, contemporary data on human population distributions, their characteristics and changes over time are a prerequisite for the accurate measurement of the impacts of population growth, for monitoring changes and for planning interventions. WorldPop aims to meet these needs through the provision of detailed and open access spatial demographic datasets built using transparent approaches. The Scientific Data WorldPop collection brings together descriptor papers on these datasets and is introduced here.

[24]

Gaughan

A E

, Stevens

F R

, Huang

Z J

, et al.

Spatiotemporal patterns of population in mainland China, 1990 to 2010

Scientific Data, 2016, 3: 160005. DOI: 10.1038/sdata.2016.5.

[本文引用: 4]

According to UN forecasts, global population will increase to over 8 billion by 2025, with much of this anticipated population growth expected in urban areas. In China, the scale of urbanization has, and continues to be, unprecedented in terms of magnitude and rate of change. Since the late 1970s, the percentage of Chinese living in urban areas increased from ~18% to over 50%. To quantify these patterns spatially we use time-invariant or temporally-explicit data, including census data for 1990, 2000, and 2010 in an ensemble prediction model. Resulting multi-temporal, gridded population datasets are unique in terms of granularity and extent, providing fine-scale (~100 m) patterns of population distribution for mainland China. For consistency purposes, the Tibet Autonomous Region, Taiwan, and the islands in the South China Sea were excluded. The statistical model and considerations for temporally comparable maps are described, along with the resulting datasets. Final, mainland China population maps for 1990, 2000, and 2010 are freely available as products from the WorldPop Project website and the WorldPop Dataverse Repository.

[25]

Tan

Min

, Liu

Kai

, Liu

Lin

, et al.

Spatialization of population in the Pearl River Delta in 30 m grids using random forest model

Progress in Geography, 2017, 36(10): 1304-1312.

DOI:10.18306/dlkxjz.2017.10.012 [本文引用: 3]

Grid population data can enable integrated analysis of population statistics with other spatial data on resources and the environment. Based on a Random Forest model and using nighttime lights, road network, surface water network, built-up area, slope, and DEM as control variables, the 2010 population data of the Pearl River Delta were distributed into 30 m grids. The estimation results were compared with three other public datasets. The importance of input variables was analyzed based on the results. The result shows that the accuracy of this simulation reached 83.32%, which is better than the WorldPop and the Population Grids of China datasets, and more close to the GPW dataset. Moreover, the 30 m resolution of our result furnishes detailed information of population density of the Pearl River Delta. According to the importance of covariates from the Random Forest model, strength of nighttime lights, distance to water, distance to built-up area, and density of roads are important factors in population distribution modeling in the Pearl River Delta. With the Random Forest model and multi-source data, high resolution population spatialization can be achieved. High spatial resolution grid data can provide important data source for high precision city management and policy making.

[ 谭敏, 刘凯, 柳林, 等.

基于随机森林模型的珠江三角洲30 m格网人口空间化

地理科学进展, 2017, 36(10): 1304-1312.]

DOI:10.18306/dlkxjz.2017.10.012 [本文引用: 3]

人口空间化是实现人口统计数据与其他环境资源空间数据融合分析的有效途径。本文选取夜间灯光数据、道路网数据、水域分布数据、建成区数据、数字高程模型和地形坡度数据作为影响珠江三角洲人口分布的变量因子,利用随机森林模型对珠江三角洲2010年人口数据进行了30 m格网空间化,并将模拟结果与三个公开数据集作精度对比,最后基于随机森林模型的变量因子重要性分析珠江三角洲人口空间分布的影响因素。结果表明：本文模拟整体精度达到82.32%,均优于WorldPop数据集以及中国公里网格人口数据集,接近GPW数据集,而且在人口密度中等区域模拟精度最高;通过对变量因子重要性进行度量,发现夜间灯光强度是珠江三角洲人口分布的最重要指示性指标,到水域的距离、到建成区的距离和路网密度对珠江三角洲人口分布均具有重要作用。利用随机森林模型结合多源信息能够实现高空间分辨率的人口空间化,可为精细化城市管理提供重要数据源,也可为相关政策决策制定提供支持。

[26]

Wang

Chao

, Kan

Aike

, Zeng

Yelong

, et al.

Population distribution pattern and influencing factors in Tibet based on random forest model

Acta Geographica Sinica, 2019, 74(4): 664-680.

DOI:10.11821/dlxb201904004 [本文引用: 3]

Clarifying the spatial pattern of population distribution, its influencing factors and regional differences at the township level is of great guiding significance for formulating sustainable development policies in ecologically fragile areas. Based on the population census data of Tibet at the township level in 2010, the population density and spatial factors were extracted. The density and clustering characteristics of the population distribution were analyzed by spatial statistical method. The multiple linear regression method and the random forest regression method were used to explore the population influencing factors and their regional differences of population distribution. The results showed that: (1) The population density of Tibet at the township level showed a strong spatial non-equilibrium. The general trend was high in the southeast and low in the northwest, and there was a strong spatial coupling between the main rivers and the main traffic trunks in high density area. (2) The "core-edge" characteristic of population clustering was obvious, and roughly to the wave of Borong (Nyalam County)-Gangni (Anduo County) as the demarcation line. (3) In the multiple linear regression method, the artificial surface index had the greatest influence on the population distribution, followed by the nighttime light index and road network density. (4) Random forest method was more accurate than multiple linear regression method to predict the population density, which can be used to sort the importance of the influencing factors. The influencing factors of the first six factors were the night light index, artificial surface index, road network density, industrial output value, GDP and multi-year average temperature, and these factors were positively correlated with population density. Among topographic factors, the contribution rate of elevation and slope was the largest, which was negatively correlated with population density. (5) The influencing factors and their interactions of population distribution in Tibet showed obvious regional differences. The valley was a gathering area for population in the study region, mainly in Lhasa River Valley, Nianchu River Valley and Sanjiang River Valley. (6) Through the analysis of random forest regression, the conceptual model can be used to express the influencing factors of population distribution, and the dominant factors were summarized as land use structure, road accessibility and urbanization level.

[ 王超, 阚瑷珂, 曾业隆, 等.

基于随机森林模型的西藏人口分布格局及影响因素

地理学报, 2019, 74(4): 664-680.]

DOI:10.11821/dlxb201904004 [本文引用: 3]

在乡镇尺度下厘清人口分布格局及其影响因素与区域差异,对在生态脆弱区制定可持续发展政策具有重大指导意义。基于2010年西藏自治区的乡镇尺度人口普查数据,提取人口密度和空间因子,利用空间统计方法分析了人口分布的疏密特征和集聚特征,对比运用多元线性回归方法和随机森林回归方法探索该地区人口分布的影响因素及其区域差异。结果表明：① 西藏乡镇人口密度在空间上表现出极强的非均衡性,其总体趋势是东南高西北低,高密度区与大江大河及主要交通干线具有较强的空间耦合性;② 大致以波绒乡（聂拉木县）—岗尼乡（安多县）为西藏的人口分界线,人口集聚的“核心—边缘”特征明显;③ 多元线性回归方法中,人造地表指数对人口分布的影响程度最大,随后依次为夜间灯光指数和路网密度;④ 利用随机森林方法进行的人口密度预测比多元线性回归方法精度高,可以用来对影响因子的重要性进行排序;排序在前六位的影响因子由高到低依次为夜间灯光指数、人造地表指数、路网密度、工业总产值、GDP和多年平均气温,它们与人口密度均呈正相关关系;地形地貌要素中以海拔和坡度的贡献率最大且与人口密度均呈负相关关系;⑤ 西藏人口分布格局的影响因素及其相互作用呈现出明显的区域差异特征,河谷是西藏地区人口的集聚区,主要分布在拉萨河谷、年楚河谷以及三江河谷;⑥ 通过随机森林回归分析,可以利用概念模型来表达人口分布影响因素,将主导因素概括为土地利用结构、道路通达度及城镇化水平。

[27]

Ye

T T

, Zhao

N Z

, Yang

X C

, et al.

Improved population mapping for China using remotely sensed and points-of-interest data within a random forests model

Science of the Total Environment, 2019, 658: 936-946.

DOI:10.1016/j.scitotenv.2018.12.276 URL [本文引用: 5]

[28]

Leyk

S

, Gaughan

A E

, Adamo

S B

, et al.

The spatial allocation of population: A review of large-scale gridded population data products and their fitness for use. Earth System Science Data, 2019, 11(3): 1385-1409.

[本文引用: 2]

[29]

Hillson

R

, Alejandre

J D

, Jacobsen

K H

, et al.

Methods for determining the uncertainty of population estimates derived from satellite imagery and limited survey data: A case study of Bo City, Sierra Leone

Plos One, 2014, 9(11): e112241. DOI: 10.1371/journal.pone.0112241.

URL [本文引用: 2]

[30]

Openshaw

S

.

The Modifiable Areal Unit Problem

Norwich: Geobooks, 1983.

[本文引用: 1]

[31]

Yang

Xiaohuan

, Jiang

Dong

, Wang

Naibin

.

Method of pixelizing population data

Acta Geographica Sinica, 2002, 57(Suppl.): 70-75.

[本文引用: 1]

[ 杨小唤, 江东, 王乃斌.

人口数据空间化的处理方法

地理学报, 2002, 57(增刊): 70-75.]

[本文引用: 1]

[32]

Wu

Jianguo

.

Landscape Ecology:Pattern Process Scale and Hierarchy. 2nd ed. Beijing: Higher Education Press, 2007: 147-154.

[本文引用: 1]

[ 邬建国. 景观生态学: 格局、过程、尺度与等级 2版. 北京: 高等教育出版社, 2007: 147-154.]

[本文引用: 1]

[33]

Liu

Yi

, Yang

Xinjia

, Liu

Jinsong

.

Experimental study on optimization of population density models based on random forest

Global Change Research Data Publishing & Repository, 2020, 4(4): 402-416.

[本文引用: 1]

[ 刘艺, 杨歆佳, 刘劲松.

基于随机森林的人口密度模型优化试验研究

全球变化数据学报(中英文), 2020, 4(4): 402-416.]

[本文引用: 1]

[34]

Liu

Yi

.

Experimental study on optimization of population density based on random forest model[D]. Shijiazhuang: Hebei Normal University, 2022.

[本文引用: 4]

[ 刘艺. 基于随机森林模型的人口密度优化实验研究[D]. 石家庄: 河北师范大学, 2022.]

[本文引用: 4]

[35]

Feng

Xiaotian

.

Social Research Methods. 5th ed. Beijing: China Renmin University Press, 2018: 75-78.

[本文引用: 2]

[ 风笑天, 社会研究方法. 5版. 北京: 中国人民大学出版社, 2018: 75-78.]

[本文引用: 2]

[36]

Zheng

Du

, Ou

Yang

, Zhou

Chenghu

.

Understanding of and thinking over geographical regionalization methodology

Acta Geographica Sinica, 2008, 63(6): 563-573.

[本文引用: 1]

[ 郑度, 欧阳, 周成虎.

对自然地理区划方法的认识与思考

地理学报, 2008, 63(6): 563-573.]

[本文引用: 1]

[37]

Hu

Huanyong

.

The Past and Future of Population Growth, Economic Development of China's Eight Regions. Shanghai: East China Normal University Press, 1986: 9-14.

[本文引用: 1]

[ 胡焕庸. 中国八大区人口增长、经济发展的过去和未来. 上海: 华东师范大学出版社, 1986: 9-14.]

[本文引用: 1]

[38]

Hu

Huanyong

.

Population, Economy and Ecologic Environment of East China, Middle China and West China. Shanghai: East China Normal University Press, 1989: 62-66.

[本文引用: 1]

[ 胡焕庸. 中国东部、中部、西部三带的人口、经济和生态环境. 上海: 华东师范大学出版社, 1989: 62-66.]

[本文引用: 1]

[39]

Hu

Huanyong

.

The distribution, regionalization and prospect of China's population

Acta Geographica Sinica, 1990, 45(2): 139-145.

PMID:12284413 [本文引用: 1]

[ 胡焕庸.

中国人口的分布、区划和展望

地理学报, 1990, 45(2): 139-145.]

DOI:10.11821/xb199002002 PMID:12284413 [本文引用: 1]

我国地势西高东低。东部第一台阶为湿润的平原和丘陵,人口稠密。第二台阶分布在中部和西北部,大部为干旱半干旱气候。西南部的青藏高原属高寒气候,人口稀少。一条分界线东北起于黑龙江省的黑河,西南至云南省的腾冲。此线以东居住着全国96％的人口。以西居住着4％的人口。作者把全国分为八大人口区。在未来岁月里,我国人口分布的总格局不会有很大改变。

[40]

Wang

Yan

.

Study on population density based on random forest model[D]. Shijiazhuang: Hebei Normal University, 2020.

[本文引用: 1]

[ 王彦. 基于随机森林模型的人口密度研究[D]. 石家庄: 河北师范大学, 2020.]

[本文引用: 1]

[41]

Shijiazhuang Municipal Bureau of Statistics.

Bulletin of the Seventh National Population Census of Shijiazhuang (No. 1). www.sjz.gov.cn/col/1596018184396/2021/05/31/1622426640444.html, 2021-05-31/2022-10-18.

URL [本文引用: 1]

[ 石家庄市统计局. 石家庄市第七次全国人口普查公报(第一号). www.sjz.gov.cn/col/1596018184396/2021/05/31/1622426640444.html, 2021-05-31/2022-10-18.]

URL [本文引用: 1]

[42]

Hebei Population and Family Planning Commission. Research Report on the Functional Area of Population development in Hebei province. Shijiazhuang: Hebei People's Publishing House, 2009.

[本文引用: 2]

[ 河北省人口和计划生育委员会. 河北省人口发展功能区研究报告. 石家庄: 河北人民出版社, 2009.]

[本文引用: 2]

[43]

Zhang

Lei

.

A study of the geomorphologic forms classification based on relief: Take Beijing-Tianjin-Hebei region for example[D]. Shijiazhuang: Hebei Normal University, 2009.

[本文引用: 1]

[ 张磊. 基于地形起伏度的地貌形态划分研究: 以京津冀地区为例[D]. 石家庄: 河北师范大学, 2009.]

[本文引用: 1]

[44]

Liu

Jinsong

, Chen

Hui

, Yang

Binyun

, et al.

Comparison of interpolation methods for annual precipitation in Hebei province

Acta Ecologica Sinica, 2009, 29(7): 3493-3500.

[本文引用: 1]

[ 刘劲松, 陈辉, 杨彬云, 等.

河北省年均降水量插值方法比较

生态学报, 2009, 29(7): 3493-3500.]

[本文引用: 1]

[45]

Kim

J

.

Estimation of optimality gap using stratified sampling

Applied Mathematics and Computation, 2005, 171: 710-720.

DOI:10.1016/j.amc.2005.01.080 URL

[46]

Wang

Zheng

, Xia

Haibin

, Tian

Yuan

, et al.

Big data analysis on the existence of Hu Huanyong Line: Ecological and new economic geography understanding of China's population distribution characteristics

Acta Ecologica Sinica, 2019, 39 (14): 5166-5177.

[本文引用: 1]

[ 王铮, 夏海斌, 田园, 等.

胡焕庸线存在性的大数据分析: 中国人口分布特征的生态学及新经济地理学认识

生态学报, 2019, 39(14): 5166-5177.]

[本文引用: 1]

[47]

Bai

Ying

, Wang

Sen

, Wu

Sufeng

, et al.

Study on the relationship between population density and traffic intensity

China Transportation Review, 2021, 43(8): 21-25, 76.

[本文引用: 1]

[ 白颖, 王森, 伍速锋, 等.

人口密度与交通强度关系研究

综合运输, 2021, 43(8): 21-25, 76.]

[本文引用: 1]

[48]

Qiu

Y

, Zhao

X S

, Fan

D Q

, et al.

Disaggregating population data for assessing progress of SDGs: Methods and applications

International Journal of Digital Earth, 2022, 15(1): 2-29.

DOI:10.1080/17538947.2021.2013553 URL [本文引用: 1]

[49]

Qiu

G

, Bao

Y H

, Yang

X C

, et al.

Local population mapping using a random forest model based on remote and social sensing data: A case study in Zhengzhou, China

Remote Sensing, 2020, 12(10): 1618. DOI: 10.3390/rs12101618.

URL [本文引用: 1]

High-resolution gridded population data are important for understanding and responding to many socioeconomic and environmental problems. Local estimates of the population allow officials and researchers to make a better local planning (e.g., optimizing public services and facilities). This study used a random forest algorithm, on the basis of remote sensing (i.e., satellite imagery) and social sensing data (i.e., point-of-interest and building footprint), to disaggregate census population data for the five municipal districts of Zhengzhou city, China, onto 100 × 100 m grid cells. We used a statistical tool to detect areas with an abnormal population density; e.g., areas containing many empty houses or houses rented by more people than allowed, and conducted field work to validate our findings. Results showed that some categories of points-of-interest, such as residential communities, parking lots, banks, and government buildings were the most important contributing elements in modeling the spatial distribution of the residential population in Zhengzhou City. The exclusion of areas with an abnormal population density from model training and dasymetric mapping increased the accuracy of population estimates in other areas with a more common population density. We compared our product with three widely used gridded population products: Worldpop, the Gridded Population of the World, and the 1-km Grid Population Dataset of China. The relative accuracy of our modeling approach was higher than that of those three products in the five municipal districts of Zhengzhou. This study demonstrated potential for the combination of remote and social sensing data to more accurately estimate the population density in urban areas, with minimum disturbance from the abnormal population density.

[50]

Wang

X Y

, Meng

X F

, Long

Y

.

Projecting 1 km-grid population distributions from 2020 to 2100 globally under shared socioeconomic pathways

Scientific Data, 2022, 9: 563. DOI: 10.1038/s41597-022-01675-x.

PMID:36097271 [本文引用: 1]

Spatially explicit population grid can play an important role in climate change, resource management, sustainable development and other fields. Several gridded datasets already exist, but global data, especially high-resolution data on future populations are largely lacking. Based on the WorldPop dataset, we present a global gridded population dataset covering 248 countries or areas at 30 arc-seconds (approximately 1 km) spatial resolution with 5-year intervals for the period 2020-2100 by implementing Random Forest (RF) algorithm. Our dataset is quantitatively consistent with the Shared Socioeconomic Pathways' (SSPs) national population. The spatially explicit population dataset we predicted in this research is validated by comparing it with the WorldPop dataset both at the sub-national and grid level. 3569 provinces (almost all provinces on the globe) and more than 480 thousand grids are taken into verification, and the results show that our dataset can serve as an input for predictive research in various fields.© 2022. The Author(s).

[51]

Stevens

F R

, Gaughan

A E

, Linard

C

, et al.

Disaggregating census data for population mapping using random forests with remotely-sensed and ancillary data

Plos One, 2015, 10(2): e0107042. DOI: 10.1371/journal.pone.0107042.

URL [本文引用: 1]

1

2013

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

1

2013

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Population data and global environmental change

1

1992

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Spatially disaggregated population estimates in the absence of national population and housing census data

1

2018

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

用经纬网格单元编制人口密度图: 以京津唐地区为例

1

1985

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

用经纬网格单元编制人口密度图: 以京津唐地区为例

1

1985

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

World population in a grid of spherical quadrilaterals

1

1997

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

2

2009

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

2

2009

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

Taking advantage of the improved availability of census data: A first look at the gridded population of the world, Version 4

2

2015

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... [7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

2

2016

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... [8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Using classified and unclassified land cover data to estimate the footprint of human settlement

2

2018

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... [9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

LandScan: A global population database for estimating populations at risk

1

2000

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Modeling the population of China using DMSP operational linescan system nighttime data

1

2001

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于RS、GIS的人口空间分布研究

1

2002

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于RS、GIS的人口空间分布研究

1

2002

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Land cover change over the last three centuries due to human activities: The availability of new global datasets

1

2004

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于土地利用的中国人口密度模拟

1

2004

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于土地利用的中国人口密度模拟

1

2004

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Three centuries of global population growth: A spatial referenced population (density) database for 1700-2000

1

2005

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

The HYDE 3.1 spatially explicit database of human-induced global land-use change over the past 12,000 years

2

2011

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... [16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于夜间灯光数据的中国人口密度模拟

1

2005

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于夜间灯光数据的中国人口密度模拟

1

2005

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

DMSP/OLS nighttime light imagery for urban population estimates in the Brazilian Amazon

1

2006

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

LandScan USA: A high-resolution geospatial and temporal modeling approach for population distribution and dynamics

2

2007

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... [19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Dasymetric modelling of small area population distribution using land cover and light emissions data

1

2007

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

Population spatialization in China based on night-time imagery and land use data

1

2011

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于人口普查与多源夜间灯光数据的海岸带人口空间化分析

1

2013

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

基于人口普查与多源夜间灯光数据的海岸带人口空间化分析

1

2013

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

WorldPop, open data for spatial demography

3

2017

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 例如，表2中01组实验为02组实验的前测实验，02组实验为01组实验的后测实验，02组实验较01组实验增加了距河流距离因子F₁，距河流距离因子F₁在此充当实验刺激.每组实验均采用分层抽样策略，每个禀赋区独立抽取10个训练样本数据集，构建10个随机森林模型，产生10个人口密度预测数据集.通过比较前测和后测所获10个人口密度预测数据集的平均拟合优度（表3）和人口密度预测优化数据集（图5），半定量半定性评价实验刺激对人口密度预测模型所产生的影响效果^[23]，并决定是否保留新引入的影响因子. ...

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

Spatiotemporal patterns of population in mainland China, 1990 to 2010

4

2016

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... [24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 依据演化经济地理学理论，农业文明时代人口分布受自然河流显著影响，山区人口呈现逐水而居的特征，平原人口则避水而居^[24]，因此在01组实验（即前测实验1）中，将A（海拔高度）、B（地形起伏度）、C（坡度）、D（年均气温）、E（年均降水）作为人口密度随机森林模型的影响因子，模拟构建自然禀赋因子影响下的人口密度预测模型.随着农耕文明的不断发展，人类修建了许多人工河流（减河、运河、灌渠等），在02组实验（即后测实验1）和03实验（即后测实验2）中，分别增加了F₁（距河流距离，含自然河流和人工河流）、F₂（距自然河流距离），尝试回答人工河流是否对人口分布有显著影响. ...

基于随机森林模型的珠江三角洲30 m格网人口空间化

3

2017

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

基于随机森林模型的珠江三角洲30 m格网人口空间化

3

2017

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

基于随机森林模型的西藏人口分布格局及影响因素

3

2019

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

基于随机森林模型的西藏人口分布格局及影响因素

3

2019

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

Improved population mapping for China using remotely sensed and points-of-interest data within a random forests model

5

2019

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... ,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 分区密度制图是将人口密度预测数据集转换为人口密度数据集的国际通行计算方法，借助人口密度预测数据集获得每个栅格的分配权重，从而确保人口密度数据集中每个人口统计单元（县）的人口总数与原始人口统计汇总数据相等，分区密度制图公式如下^[27]： ...

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

2

2019

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

Methods for determining the uncertainty of population estimates derived from satellite imagery and limited survey data: A case study of Bo City, Sierra Leone

2

2014

... 人口密度是单位面积上的人口数量，是表征区域人口分布特征的定量指标^[1].高分辨率人口密度数据集是揭示人口分布规律的基础依据.为在栅格尺度整合人口、资源、环境数据集，推动全球变化的定量研究工作，20世纪90年代初，HDP（The Human Dimensions of Global Environmental Change Programme）第3工作组倡议研制全球人口密度栅格数据集^[2]，“自上而下的人口普查数据分解算法”^[3]（含面积加权^{[4⇓⇓⇓-8]}和线性回归^{[9⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-22]}两类人口密度模型）率先得到了发展，GPW^[7]、GHS-POP^[8]、WPE^[9]、HYDE^[16]和LandScan^[19]均是利用此类算法生产的全球人口密度栅格数据产品.2015年联合国可持续发展目标（Sustainable Development Goals, SDGs）认为，栅格人口密度模型的信度和效度亟待改进^[23]，与之相呼应，近年来随机森林模型在“自上而下的人口普查数据分解算法”^{[24⇓⇓-27]}和“自下而上的人口调查数据估计算法”^[28-29]中得到了广泛应用. ...

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

The Modifiable Areal Unit Problem

1

1983

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

人口数据空间化的处理方法

1

2002

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

人口数据空间化的处理方法

1

2002

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

2007

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

2007

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

基于随机森林的人口密度模型优化试验研究

1

2020

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

基于随机森林的人口密度模型优化试验研究

1

2020

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

4

2022

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... [34]. ...

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

... [34] 聚落核密度数据集聚落数据集核密度夜光影像数据集 2007年DMSP/OLS夜光影像数据集重采样(像元大小为100 m) 分区训练样本分区训练样本数据集通过分层采样，每区获得10套训练样本数据集分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

4

2022

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... [34]. ...

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

... [34] 聚落核密度数据集聚落数据集核密度夜光影像数据集 2007年DMSP/OLS夜光影像数据集重采样(像元大小为100 m) 分区训练样本分区训练样本数据集通过分层采样，每区获得10套训练样本数据集分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

2

2018

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 采用递增式遴选方法，系统开展人口密度影响因子的遴选实验（表2），遴选实验共开展8轮.其中，将增加1个影响因子或替换某个影响因子的行为称为实验刺激（Experimental Stimulus），将给予实验刺激之前的实验称为前测（Pretest）实验，将给予实验刺激之后的实验称为后测（Posttest）实验^[35]. ...

2

2018

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

... 采用递增式遴选方法，系统开展人口密度影响因子的遴选实验（表2），遴选实验共开展8轮.其中，将增加1个影响因子或替换某个影响因子的行为称为实验刺激（Experimental Stimulus），将给予实验刺激之前的实验称为前测（Pretest）实验，将给予实验刺激之后的实验称为后测（Posttest）实验^[35]. ...

对自然地理区划方法的认识与思考

1

2008

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

对自然地理区划方法的认识与思考

1

2008

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

1986

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

1986

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

1989

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

1989

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

中国人口的分布、区划和展望

1

1990

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

中国人口的分布、区划和展望

1

1990

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

2020

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

2020

... 然而在构建人口密度随机森林模型时，下列问题并未得到妥善解决，制约了人口密度随机森林模型的信度和效度.① 训练样本的数据质量仍受可塑性面积单元问题（Modifiable Areal Unit Problem, MAUP）困扰^[30⇓-32].人口密度属于定比量化指标，改变统计单元的形状或面积，人口密度值将发生变化.人口密度随机森林模型通常以人口普查区^{[24⇓⇓-27]}或人口调查区^[28-29]为单位开展采样，此时只能借助聚合运算才能获得建模所需的训练样本数据（含人口密度和影响因子），受MAUP困扰，样本数据质量存疑^[33-34].② 模型存在区群谬误问题（Ecological Fallacy）^[35].由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区，输出单元多为公里网格或公顷网格，模型的输入单元粒度远大于输出单元粒度，故模型隐含区群谬误问题.③ 模型存在混淆人口分布规律问题.以中国为例，在地域辽阔的国土中，存在众多地理区划单元^[36]，各区划单元的人口分布规律和影响机制存在显著差异^[37⇓-39].仅用一套训练样本构建覆盖中国的人口密度随机森林模型^[24,27]，会混淆不同区域（例如平原和山区）的人口分布规律^[40].④ 忽视分区遴选人口密度影响因子.由于人口密度随机森林模型属于监督模型，故引入不同的影响因子，计算所得的人口密度数据集存在显著差异.“千篇一律”的样本模式，不仅存在引入错误影响因子的风险，而且会阻碍探讨“各美其美，美美与共”的人口分布法则和影响机制^[34]. ...

1

... 石家庄市是河北省省会，位于37°27′N~38°47′N，113°30′E~115°30′E之间，地势西高东低（图1）.全市（含辛集市）下辖8个区、11个县，3个县级市，总面积14464 km².截至2020年11月1日，石家庄市常住人口为1123.51万人^[41]. ...

1

... 石家庄市是河北省省会，位于37°27′N~38°47′N，113°30′E~115°30′E之间，地势西高东低（图1）.全市（含辛集市）下辖8个区、11个县，3个县级市，总面积14464 km².截至2020年11月1日，石家庄市常住人口为1123.51万人^[41]. ...

2

2009

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

... [42] 年均气温数据集 1971—2000年
河北省及周边气象台站气象监测数据 Kriging插值^[6] 年均降水数据集 Spline插值^[44] 距河流距离数据集 2015年1∶100万全国基础地理数据库欧氏距离距自然河流距离数据集欧氏距离经济禀赋因子
数据集距POIs距离数据集 2012年百度中国POIs数据集欧氏距离^[34] 距聚落距离数据集聚落数据集欧氏距离创新禀赋因子
数据集 POIs核密度数据集 2012年百度中国POIs数据集核密度^[34] 聚落核密度数据集聚落数据集核密度夜光影像数据集 2007年DMSP/OLS夜光影像数据集重采样(像元大小为100 m) 分区训练样本分区训练样本数据集通过分层采样，每区获得10套训练样本数据集分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

2

2009

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

... [42] 年均气温数据集 1971—2000年
河北省及周边气象台站气象监测数据 Kriging插值^[6] 年均降水数据集 Spline插值^[44] 距河流距离数据集 2015年1∶100万全国基础地理数据库欧氏距离距自然河流距离数据集欧氏距离经济禀赋因子
数据集距POIs距离数据集 2012年百度中国POIs数据集欧氏距离^[34] 距聚落距离数据集聚落数据集欧氏距离创新禀赋因子
数据集 POIs核密度数据集 2012年百度中国POIs数据集核密度^[34] 聚落核密度数据集聚落数据集核密度夜光影像数据集 2007年DMSP/OLS夜光影像数据集重采样(像元大小为100 m) 分区训练样本分区训练样本数据集通过分层采样，每区获得10套训练样本数据集分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

1

2009

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

1

2009

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

河北省年均降水量插值方法比较

1

2009

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

河北省年均降水量插值方法比较

1

2009

... The main datasets

Tab. 1

目标数据集	原始数据集	数据来源	处理方法
聚落人口密度数据集	村人口数据集	石家庄市公安局	二元加权模型^①
	村界数据集	第二次全国土地调查数据集
	聚落数据集	第二次全国土地调查数据集
自然禀赋因子数据集	DEM数据集	地理国情监测云平台1∶25万DEM数据	投影转换和重采样^[42]
	地形起伏度数据集		Focalmean函数^[43]
	坡度数据集		坡度函数^[42]
	年均气温数据集	1971—2000年河北省及周边气象台站气象监测数据	Kriging插值^[6]
	年均降水数据集	1971—2000年河北省及周边气象台站气象监测数据	Spline插值^[44]
	距河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
	距自然河流距离数据集	2015年1∶100万全国基础地理数据库	欧氏距离
经济禀赋因子数据集	距POIs距离数据集	2012年百度中国POIs数据集	欧氏距离^[34]
经济禀赋因子数据集	距聚落距离数据集	聚落数据集	欧氏距离
创新禀赋因子数据集	POIs核密度数据集	2012年百度中国POIs数据集	核密度^[34]
	聚落核密度数据集	聚落数据集	核密度
	夜光影像数据集	2007年DMSP/OLS夜光影像数据集	重采样(像元大小为100 m)
分区训练样本	分区训练样本数据集	通过分层采样，每区获得10套训练样本数据集	分层采样

注：① 处理方法参考未公开发表中文期刊文献：李艳成, 温佩璋, 刘劲松. 基于聚落的人口统计数据空间分解算法. ...

Estimation of optimality gap using stratified sampling

0

2005

胡焕庸线存在性的大数据分析: 中国人口分布特征的生态学及新经济地理学认识

1

2019

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

胡焕庸线存在性的大数据分析: 中国人口分布特征的生态学及新经济地理学认识

1

2019

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

人口密度与交通强度关系研究

1

2021

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

人口密度与交通强度关系研究

1

2021

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

Disaggregating population data for assessing progress of SDGs: Methods and applications

1

2022

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

Local population mapping using a random forest model based on remote and social sensing data: A case study in Zhengzhou, China

1

2020

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

Projecting 1 km-grid population distributions from 2020 to 2100 globally under shared socioeconomic pathways

1

2022

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

Disaggregating census data for population mapping using random forests with remotely-sensed and ancillary data

1

2015

... 相关研究表明，人口密度与交通通达度（表征交通区位的量化指标）具有显著相关性^[46-47]，因此，在构建人口密度模型时，交通区位因子是常被引入的影响因子^{[23,25⇓ -27,48⇓⇓ -51]}.本文将交通通达度作为实验刺激，设计了第09组实验（后测实验8）.结果表明，在引入交通通达度后，人口密度预测数据集的最大值、人口密度预测模型的平均拟合优度R²、人口密度数据集的标准差均出现了小幅下降的现象（即出现了影响因子边际效应），说明不宜将交通通达度引进到石家庄市人口密度随机森林模型之中.其实，1978年改革开放以来中国交通基础设施变化巨大，准确获取历史时期交通要素数据集的难度极大.如果在构建人口密度随机森林模型时不必引入交通区位因子，将显著降低各普查年份人口密度随机森林模型的构建难度. ...

实验组别	前测控制组					后测实验组
实验组别	引入部分自然禀赋因子					河流距离	创新禀赋	经济禀赋
01	A	B	C	D	E
02	A	B	C	D	E	F₁
03	A	B	C	D	E	F₂
04	A	B	C	D	E	F_m	G₁
05	A	B	C	D	E	F_m	G₂
06	A	B	C	D	E	F_m	G₃
07	A	B	C	D	E	F_m	G_n	H₁
08	A	B	C	D	E	F_m	G_n	H₂

禀赋分区	自然禀赋因子	河流因子		创新禀赋因子			经济禀赋因子
禀赋分区	前测因子	距河流距离	距自然河流距离	夜光影像	POIs核密度	聚落核密度	POIs距离	聚落距离
山区城镇	0.135	0.148	0.142	0.172	0.180	0.156	0.185	0.525
山区乡村	-0.093	-0.079	-0.084	-0.063	-0.068	-0.075	-0.068	0.533
平原城镇	0.164	0.178	0.220	0.236	0.263	0.240	0.265	0.515
平原乡村	-0.109	-0.089	-0.097	-0.092	-0.087	-0.080	-0.080	0.711

禀赋分区	DEM	地形起伏度	坡度	年均温	年降水	河流因子		创新禀赋因子			经济禀赋因子
禀赋分区	DEM	地形起伏度	坡度	年均温	年降水	距河流距离	距自然河流距离	夜光影像	POIs核密度	聚落核密度	聚落距离	POIs 距离
山区城镇	√	√	√	√	√	√	-	◎	√	O	√	-
山区乡村	√	√	√	√	√	√	-	√	◎	O	√	-
平原城镇	√	√	√	√	√	-	√	O	√	◎	√	-
平原乡村	√	√	√	√	√	√	-	O	◎	√	√	-

实验组别	最大值	平均值	标准差	实验组别	最大值	平均值	标准差
01	335.858	7.259	14.143	05	362.073	7.396	15.926
02	319.384	7.385	14.136	06	335.565	7.425	15.027
03	329.105	7.360	14.466	07	342.875	7.406	16.043
04	354.606	7.436	15.676	08	405.284	6.967	24.585

实验组别	最大值	平均值	标准差	实验组别	最大值	平均值	标准差
01	420.510	6.775	15.137	05	373.971	6.775	16.278
02	453.410	6.775	15.050	06	397.708	6.775	15.522
03	408.598	6.775	15.660	07	355.833	6.775	15.890
04	350.737	6.775	15.484	08	512.187	6.775	24.492

人口密度随机森林模型优化实验研究

Experimental study of population density using an optimized random forest model

1 引言

2 材料与方法

2.1 研究区概况

图1

2.2 数据来源

2.3 研究方法

图2

2.3.1 综合禀赋分区

图3

2.3.2 分层采样

2.3.3 拟合优度R²

2.3.4 人口密度预测数据集的优化组合

2.3.5 分区密度制图（Dasymetric Mapping）

3 人口密度模型优化实验

3.1 遴选人口密度影响因子

3.1.1 遴选人口密度影响因子的实验方案

图5

3.1.2 各区人口密度影响因子的遴选结果

3.1.3 人口密度影响因子的空间异质性分析

图4

3.2 计算结果和模型检验

3.2.1 人口密度预测数据集的优化组合输出结果

3.2.2 分区密度制图结果

图6

3.2.3 人口密度数据集的准则效度检验

4 讨论

4.1 灵活制定分区策略

4.2 进一步加强训练样本数据集的遴选工作

4.3 人口密度随机森林模型可能不必引入交通区位因子

4.4 聚落数据集在构建人口密度随机森林模型中发挥了极其重要的作用

4.5 部分实验模型与国际著名人口密度模型准则效度的比较

5 结论

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

模型	①	②	③	④	⑤	⑥	⑦	⑧	⑨	01组	08组
平原城镇	0.796	0.967	0.851	0.802	0.974	0.933	0.860	0.964	0.893	0.966	0.983
平原乡村	0.363	0.773	0.417	0.681	0.687	0.658	0.604	0.758	0.726	0.812	0.939
山区城镇	0.522	0.811	0.638	0.851	0.694	0.731	0.555	0.770	0.897	0.694	0.896
山区乡村	0.278	0.781	0.356	0.639	0.631	0.561	0.600	0.734	0.717	0.682	0.889
研究区	0.896	0.911	0.657	0.708	0.528	0.874	0.706	0.910	0.836	0.890	0.967

人口密度随机森林模型优化实验研究

Experimental study of population density using an optimized random forest model

1 引言

2 材料与方法

2.1 研究区概况

图1

2.2 数据来源

2.3 研究方法

图2

2.3.1 综合禀赋分区

图3

2.3.2 分层采样

2.3.3 拟合优度R2

2.3.4 人口密度预测数据集的优化组合

2.3.5 分区密度制图（Dasymetric Mapping）

3 人口密度模型优化实验

3.1 遴选人口密度影响因子

3.1.1 遴选人口密度影响因子的实验方案

图5

3.1.2 各区人口密度影响因子的遴选结果

3.1.3 人口密度影响因子的空间异质性分析

图4

3.2 计算结果和模型检验

3.2.1 人口密度预测数据集的优化组合输出结果

3.2.2 分区密度制图结果

图6

3.2.3 人口密度数据集的准则效度检验

4 讨论

4.1 灵活制定分区策略

4.2 进一步加强训练样本数据集的遴选工作

4.3 人口密度随机森林模型可能不必引入交通区位因子

4.4 聚落数据集在构建人口密度随机森林模型中发挥了极其重要的作用

4.5 部分实验模型与国际著名人口密度模型准则效度的比较

5 结论

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

2.3.3 拟合优度R²

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子