模型与方法
李玲玲, 刘劲松, 李智, 温佩璋, 李艳成, 刘艺
随机森林模型是精准刻画区域人口分布规律和影响机制的主流研究方法。本文以石家庄为实验区,以综合禀赋分区为建模单元,在公顷网格粒度上分区开展分层采样,系统进行了递增式人口密度影响因子遴选实验,全流程(分区建模、分层采样、因子遴选、加权输出)优化了人口密度随机森林模型。研究表明:① 分区建模抑制了模型混淆人口分布法则问题;在栅格粒度上采样,不仅使训练样本数据质量摆脱了MAUP的困扰,而且在形式上尝试降低区群谬误的不良影响;分层采样确保了样本数据集中人口密度标签值的分布稳定性。② 利用人口密度随机森林模型,分区开展人口密度影响因子遴选实验,逐步提升了模型的拟合优度R2;距聚落距离是各区人口密度的主要影响因子;各区的人口分布影响机制存在显著差异,创新禀赋因子对城镇地区人口密度有较强影响,自然禀赋因子对乡村地区人口密度有较强影响。③ 对人口密度预测数据集进行优化组合,显著提高了模型的鲁棒性。④ 所获人口密度数据集具有多尺度叠加特征,大尺度上呈现出平原人口密度高于山区,小尺度上呈现出城镇人口密度高于乡村的“核心—边缘”特征。人口密度随机森林模型优化方案为揭示地方性人口分布规律和人口分布影响机制提供了统一的技术框架。