地球信息科学学报  2017 , 19 (6): 772-781 https://doi.org/10.3724/SP.J.1047.2017.00772

地球信息科学理论与方法

利用终端位置时空转移概率预测通讯基站服务用户规模

方志祥12, 倪雅倩1, 张韬3, 冯明翔1, 于冲1

1. 武汉大学 测绘遥感信息工程国家重点实验室,武汉 430079
2. 地球空间信息技术协同创新中心,武汉 430079
3. 中国移动通信集团湖北有限公司业务支撑中心,武汉 518055

Using Terminal Location Spatio-temporal Transfer Probability to Predict Subscriber Base Size of Communication Base Station

FANG Zhixiang12*, NI Yaqian1, ZHANG Tao3, FENG Mingxiang1, YU Chong1

1. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
2. Collaborative Innovation Center of Geospatial Technology, Wuhan 430079, China
3. Business Support Center, Hubei Mobile, Wuhan 430040, China

通讯作者:  *Corresponding author: FANG Zhixiang, E-mail: zxfang@whu.edu.cn

收稿日期: 2017-01-3

修回日期:  2017-05-10

网络出版日期:  2017-06-20

版权声明:  2017 《地球信息科学学报》编辑部 《地球信息科学学报》编辑部 所有

基金资助:  国家自然科学基金项目(41231171、41371420)湖北省青年英才开发计划项目武汉大学自主科研项目拔尖创新人才类资助项目(2042015KF0167)

作者简介:

作者简介:方志祥(1977-),男,教授,主要从事时空行为建模、导航与位置服务研究。E-mail: zxfang@whu.edu.cn

展开

摘要

基站服务用户数的预测对通信基站的空间位置选取、通讯服务带宽的配置优化等有重要作用,并为城市公共安全管理方面中的人群聚集预警与群体事件预防提供辅助决策支持。本文利用海量手机轨迹数据,运用时空转移概率定量化描述城市内不同区域间人群流动的时空特性,结合马尔可夫链和贝叶斯定理,构建手机用户群体在基站间的时空转移概率模型,并以此提出一种城市区域尺度上的基站服务用户数预测方法。利用湖北省某城市长达30 d的手机轨迹数据进行模型训练与预测方法验证,实验结果表明:在时间粒度为60 min时,本文提出的方法对8-22时各时段基站服务用户数预测准确率都大于94.8%;在不同时间粒度下对比本文方法、Castro模型、移动平均法,发现在时间粒度大于20 min时,本文方法预测准确率高于另外两种方法。

关键词: 手机数据 ; 人群移动 ; 时空转移概率 ; 人数预测 ; 马尔可夫链

Abstract

The prediction of the service population of cell phone tower plays an important role in the optimization of the spatial location of the cell phone towers and the configuration of the communication service bandwidth in mobile communications, and also provides the decision-making basis for early warning of human convergence and prevention of group incidents in urban management. This study proposed a prediction method of population in a region on a citywide scale, considering the human movement between cell phone towers. Based on the Markov chain and Bayesian probability theorem, we calculated the transition probability between different cell phone towers using massive mobile phone trajectories and we acquired the transition probability matrix which was distinct in different periods of one day. We made full use of the spatiotemporal transition probability to quantify the spatial and temporal characteristics of the mobile phone user’s intra-urban movement. This study applies massive historical mobile phone location data to model training and proposes a citywide prediction model of the service population of the cell phone tower based on the spatiotemporal transition probability model. The algorithm proposed is verified by a mobile phone location dataset within thirty days collected by Hubei Mobile. This study shows that the prediction accuracy rate can reach about 94.8% and the proposed algorithm performed a good prediction with a temporal granularity of 60 minutes. Moreover, this study analyzed the prediction performance of the spatiotemporal transition probability model in different time granularities, and made comparison with other methods, such as the Castro model and moving average method. The results indicated that the proposed algorithm outperforms the Castro’s model and moving average method when the temporal granularity is larger than 20 minutes. The proposed prediction method takes account of the spatial and temporal characteristics of human mobility and provides more accurate prediction results.

Keywords: mobile phone location data ; human mobility ; spatiotemporal transition probability ; population prediction ; Markov chain

0

PDF (5568KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

方志祥, 倪雅倩, 张韬, 冯明翔, 于冲. 利用终端位置时空转移概率预测通讯基站服务用户规模[J]. , 2017, 19(6): 772-781 https://doi.org/10.3724/SP.J.1047.2017.00772

FANG Zhixiang, NI Yaqian, ZHANG Tao, FENG Mingxiang, YU Chong. Using Terminal Location Spatio-temporal Transfer Probability to Predict Subscriber Base Size of Communication Base Station[J]. 地球信息科学学报, 2017, 19(6): 772-781 https://doi.org/10.3724/SP.J.1047.2017.00772

1 引言

随着手机用户群体的不断增大,基站的空间位置设定和通讯服务带宽的动态配置成为保障高质量通讯的关键。通讯基站的容量管理需要考虑当前用户数及未来的发展趋势,有些学者采用遗传算法[1]、启发式算法[2]等对基站容量规划进行研究。Hakim等[3]考虑交通出行引起的人口密度变化因素,对基站容量规划进行优化,但此类研究还缺乏对手机用户在基站间移动规律的理解[4],对基站服务用户数的预测缺乏用户的动态溯源分析及其影响评估。从人群移动角度对基站服务用户数的预测,为人群聚集预警、城市安全管理等提供辅助决策支持。

近年来,手机位置数据在人类移动模式[5-7]、移动行为预测[8-10]、城市计算[12-14]等方面的研究中被广泛使用。与本文研究有关的个体移动行为预测方面:Song等[9]发现人类移动在时空上表现出高度的可预测性,93%的人类移动可以被预测;Monreale 等[10]根据人的移动模式构建决策树预测个体移动。在利用手机位置数据进行区域人数预测方面,Dash等[15]利用动态贝叶斯对个体进行预测,基于当前位置和时刻聚类个体移动来实现群体移动的预测。此外,时间序列预测[16-17]、马尔可夫模型[18]、神经网络[19]等方法也常被用于区域人数预测,如戴蓉蓉等[16]使用ARIMA模型对武汉市的人群变化进行季节性模拟和预测;刘红梅等[17]利用灰色模型预测景区旅游人数;Fan等[18]构建基于相似度聚类的马尔可夫模型实现人数预测。

综上所述,现有区域人数预测研究一般由个体预测扩展到群体[15],然而由于城市区域人数人口较多,导致计算量过大,并且个体预测的不可确定性对城市区域尺度上人口预测影响程度也有待深入研究,需要建立群体层面高效的预测方法。时间序列预测方面的研究[16-17]主要关注区域人数的时序变化,较少考虑现实中人群移动带来的动态累积影响。基于Markov模型的预测方法[18]考虑当前时段区域人数和人群转移特性,并作为下一时段的预测规律,但由于人类移动存在时空差异,需要集成相邻时段人群转移规律的差异。

因此,本文从群体角度出发,采用手机位置数据,考虑人群移动的时空差异,结合马尔可夫链的无后效性[21]和贝叶斯定理[20],提出一种城市区域尺度上的基站服务用户数预测方法。该方法计算手机位置的时空转移概率,构建基站服务用户数预测模型,实现城市区域内的基站服务用户数预测。

2 手机位置时空转移概率

2.1 时空转移概率

转移概率是马尔可夫相关理论[21]中的重要概念,用来描述状态空间中从一个状态到下一状态的转换过程。根据马尔可夫理论的定义,设定状态n马尔可夫链 Xn,nT的转移概率为条件概率 pxn,xn+1n,计算公式如式(1)所示。

pxn,xn+1n=PXn+1=xn+1Xn=xn(1)

式中: pxn,xn+1n表示从当前状态n到下一状态n+1,状态由 xn转化为 xn+1的概率。

手机用户在时刻t的空间位置表示为 ln=longituden,latituden,t,其中t表示时刻, longituden,latituden表示用户所在的手机基站的经纬度坐标,简记为 lonn,latn。不同时刻的用户空间位置构成移动轨迹 Ln=(l0,l1,l2,,ln),其中n为轨迹记录条数。本文将空间位置的变化视为状态变化,即时段t用户所在的基站位置 ln=lonn,latn,t视作状态 xn,相应地下一状态 xn+1表示为 ln+1=lonn+1,latn+1,t+1,则用户群体的位置时空转移概率为 pxn,xn+1t=Pln+1|ln

手机位置时空转移概率用于定量描述手机用户群体在不同基站间移动的可能性。从手机定位数据中可以统计到各基站的服务用户数 Nit、基站i和基站j间的手机用户人流数量 flowi,jtflowi,jt表示时段t手机用户轨迹中出现当前位置为基站i,下一位置为基站j的次数。根据贝叶斯定理[20,23],手机用户群体从基站i流向基站j的时空转移概率 pi,jt的计算公式为:

pi,jt=p(lj|li)=p(lj)p(li|lj)k=1mp(lk)p(li|lk)=Njt+1Nt+1flowi,jtNjt+1k=1mNkt+1Nt+1flowi,ktNkt+1=flowi,jtk=1mflowi,kt(2)

式中:i,j表示时段t和时段t+1用户群体所在的基站;m表示城市区域的手机基站个数; flowi,jt表示时段t从基站i移动到基站j的手机用户数; Njt+1表示时段t+1基站j的服务用户数; Nt+1表示t+1所有基站服务的总用户数。

2.2 时空转移概率矩阵

手机用户群体在基站间移动的可能性可以通过时空转移概率矩阵表示,如图1给出了基站间人群流动的示意图。当只考虑手机用户从单个基站i移动到m个基站时(图1(a)),t时段手机用户群体从基站i移动到基站1,2,…,m,时空转移概率构成一个行向量 Pit,可表达为 Pit=[pi,1,pi,2,...,pi,m]

图1   基站间人群移动示意图

Fig. 1   The crowd movement between cell phone towers

图1(b)表示手机用户在多基站间移动的示意图。多基站间的人群移动时空转移概率可表达为一个 m×m的二维矩阵 Pt,如式(3)所示。其中,转移概率矩阵 Pt满足矩阵元素 0pi,jt<1,并且每行所有元素相加之和为1。

Pt=|pi,jt=p11p12p1jp1mp21p22pi1pijpm1pmm(3)

时空转移概率矩阵是对基站区域间人口流动的定量化表达,时空转移概率矩阵 Pt的不对称性能体现基站间用户流动的不平衡性,可以反映城市基站间人口流动的空间特征。不同时段人群移动时空转移概率矩阵存在的差异,则体现出手机用户出行的时间特征。

3 基于时空转移概率的基站服务用户数预测

3.1 Castro的预测模型

Castro的模型[22]利用马尔可夫链的无后效性,对不同时段的交通流量进行预测。该模型假设城市区域车辆数量保持不变,在不同时间粒度下统计各时段的交通流量,计算车辆的时空转移概率矩阵 Pt,如式(4)构建交通流量预测模型。该模型被广泛用于城市交通流量的短时预测。利用马尔可夫链中状态转移的思想,在研究基站服务用户数预测时,可用当前时段各基站服务用户数 Nt和转移概率矩阵 Pt对下一时段各基站服务用户数 N_predictt+1进行预测,如式(4)所示:

N_predictt+1=Pt×Nt(4)

式中: Pt为时段t用户群体的转移概率矩阵, Pt=pijt, 0pij1,并且满足 i,jm,j=1mpijt=1; Ntt时段各基站的服务用户数向量。

3.2 模型改进

本文的基站服务用户数预测方法将贝叶斯理论[20,23]和马尔可夫链的无后效性[21]结合起来,计算手机用户群体在基站间的时空转移概率,在Castro模型的基础上进行改进,构建基站服务用户数预测方法。对Castro模型的改进具体为如下2个方面:

(1)现实中由于存在城市间的人口流动、手机开关机等现象,城市内基站服务的手机用户总数不断变化,使模型中基站服务的手机用户总数不变的假设不成立。本文针对手机用户总数波动的现象,利用历史轨迹数据确定相邻时段基站服务的手机用户总数的改正值,根据相邻时段基站服务用户数变化的历史规律,加入相邻时段基站服务用户数的改正项 ΔNtt+1、转移概率矩阵改正项 ΔPtt+1,对Castro预测模型中各基站的服务用户数进行改进。

首先,计算相邻时段基站服务用户数的改正项 ΔNtt+1。利用训练数据统计得到各时段基站服务用户数,分别计算每天相邻时段的基站服务用户数变化量 ΔNday,tt+1,上标day用来标识不同日期。根据训练数据中基站服务用户数变化量的最大值 ΔNmaxtt+1和最小值 ΔNmintt+1,平均分为n个状态区间 ak,bk,统计不同日期基站服务用户数变化量 ΔNtt+1day在各个区间 ak,bk的概率 pk。按照式(5)对区间的均值进行加权平均得到基站服务用户数的改正项 ΔNtt+1。取区间均值进行计算,尽量减少突发事件引起的人数变化极端值对基站服务用户数改正项 ΔNtt+1的影响。

ΔNtt+1=k=1npk×12(ak+bk)(5)

式中: ak=ΔNmintt+1+knΔNmaxtt+1-ΔNmintt+1)bk=ak+1nΔNmaxtt+1-ΔNmintt+1)k=0,1,,n-1ΔNmaxtt+1ΔNmintt+1分别表示训练数据中相邻时段tt+1基站服务用户数变化量的最大值、最小值。

同样,计算相邻时段人群时空转移概率矩阵的改正项 ΔPtt+1。不同时段人群移动规律的不同会引起基站间人群移动时空转移概率的改变,时空转移概率矩阵的改正项 ΔPtt+1体现了人群在不同时段移动特性的差异,其计算是以矩阵中基站i,j间的时空转移概率差异 Δpi,jtt+1为基础的。由每天相邻时段tt+1的转移概率 pi,jtpi,jt+1计算基站i,j间转移概率的差异值 Δpi,jday,tt+1。将每天相邻时段基站间的转移概率差异值 Δpi,jday,tt+1划分n个区间,按式(6)计算基站i,j间时空转移概率的改正项 Δpi,jtt+1。由此可以得到,相邻时段人群移动时空转移概率矩阵的改正项 ΔPtt+1=Δpi,jtt+1i, j=1,2,…,m;m表示基站个数)。

Δpi,jtt+1=k=1npk×12(ak+bk)(6)

式中: ak=Δpij,mintt+1+knΔpij,maxtt+1-ΔPij,mintt+1)bk=ak+1nΔpij,maxtt+1-Δpij,mintt+1),k=0,1,…,nΔpij,maxtt+1Δpij,mintt+1分别表示训练数据中,相邻时段基站i与基站j间时空转移概率差异值的最大值、最小值。

(2)具体到各基站服务用户数变化的计算,此前Castro预测模型的流量分配没有考虑相邻时段移动规律的改变。本文的模型加入时空转移概率矩阵改正项 ΔPtt+1,利用改进后的转移概率矩阵 Pt'对基站服务用户数 ΔNtt+1进行基站服务用户数的分配。基站间时空转移概率改正项 ΔPtt+1的实际意义在于定量描述不同时段城市区域间的人群移动规律差异。按照式(7)可得到更接近时段 t+1实际用户移动规律的转移概率矩阵 Pt',对 Pt'进行按比例计算使之依然满足各行元素之和为1的条件。最后,按照改进后的转移概率矩阵 Pt'将时段t+1的基站服务用户数变化量 ΔNtt+1分配到各个基站,按式(8)得到t+1时段各基站服务用户数的预测值。

Pt'=Pt+ΔPtt+1(7)

N_predictt+1=Nt+ΔNtt+1×Pt'(8)

3.3 方法主要流程

图2为本文方法的基本流程,主要分为3个阶段:数据准备、模型训练、模型预测与评估。首先,统计不同时段手机用户在基站间的流量 flowi,jt和基站的服务用户数 Nt,按照式(2)计算用户群体在基站间的时空转移概率,构建时空转移概率矩阵 Pt。然后,利用历史轨迹数据进行预测模型的训练,按式(5)、(6)计算相邻时段基站服务用户数改正项 ΔNtt+1和转移概率矩阵改正项 ΔPtt+1。最后,运用式(8)进行基站服务用户数预测,利用预测准确率对本文提出的方法的预测性能进行分析和评估。通过实验确定最佳的训练周数、计算改正项。

图2   方法基本流程

Fig. 2   Basic procedures of the prediction method

4 实验结果与分析

4.1 实验数据

本研究采用的实验数据为某城市2015年8月10日至2015年9月27日长达7周的手机位置数据。该城市位于湖北省东南部,总人口80.52万人,面积1200.35 km2。手机位置数据以手机基站的经纬度坐标记录手机用户的位置,如表1所示,包括经过脱敏处理后的手机用户ID、记录产生的时间、基站编号、基站经纬度坐标。手机位置数据的匿名化处理机制,有效地保护了用户隐私,同时为群体角度的城市区域人群移动研究提供了数据基础。图3为手机基站分布密度图。

表1   手机用户轨迹数据实例

Tab. 1   The examples of one user′s records

用户ID时间基站编号基站经度基站纬度
58****07:3211**115.****29.****
58****08:3211**115.****29.****
58****09:2712**115.****29.****
58****21:0610**115.****29.****
58****21:3411**115.****29.****

新窗口打开

图3   基站核密度图

Fig. 3   Spatial kernel density of cell phone towers

本实验区域的手机位置数据包括43.2万手机用户的主动和被动定位信息,即当用户位置发生基站间变更、接打电话、收发信息时用户的位置信息将被记录(被动记录),当用户长时间(超过1 h小时)未发生上述行为时,手机将会主动捕捉其所在的位置(主动记录)。因此每个手机用户一天中至少会产生24条定位数据。考虑实际生活中人们的日常出行,本次实验采用该城市每天活动记录在30~1500条之间的24万用户的手机轨迹数据,一天内手机用户记录数目多达940万条。实验对原始轨迹数据进行相同坐标的基站合并和针对基站信号跳变的轨迹清洗等预处理,并统计了不同时段各基站的服务用户数和基站之间的用户的流动信息,用于对工作日基站服务用户数的预测。由于部分日期的手机轨迹数据残缺不全,实际可用于训练的数据为26天的工作日数据。

4.2 实验结果分析

为了方便评价不同基站服务用户数预测的准确率,实验按照式(9)定义预测准确度 Ri,t,评价不同时段各基站服务用户数预测的准确性。考虑到人群移动的时空特性,不同时段基站服务用户数的预测准确度会发生改变。为了更好地分析不同时段基站服务用户数预测的准确率,实验统计该城市所有基站的预测准确度R的平均值、中位数,用来评价方法的准确性,用四分位数之差(3Q-1Q)评价模型的稳定性。

Ri,t=1-|Ni,tpr-Ni,t|Ni,t×100%(9)

式中: Ni,tNi,tpr依次表示时段t时基站i的服务用户数的统计值和预测值。

实验前,本研究对训练数据的天数进行了分析。实验以周为单位依次使用长达1周、2周、3周、4周、5周、6周的手机定位数据分别进行模型训练,采用第7周的基站服务用户数进行预测,并评估模型的准确性和稳定性。时间粒度为60 min时,不同训练周数对应的模型预测准确率变化如图4所示,随着训练周数的增加,模型预测准确率稳步增加,当训练周数增长到3周以上时模型预测准确率趋于稳定,在94.7%上下波动。从实验结果来看,在对工作日基站服务用户数进行预测时,选取长达3周的工作日数据进行训练,可有效掌握相邻时段历史人群移动规律,也能保证对现实变化过程的捕捉。实验采用3周的工作日数据作为模型的训练数据,进行后续的对比分析。

图4   不同训练周数下的准确率比较

Fig. 4   Accuracy comparison with different training days

4.2.1 不同方法的结果对比

本实验选取3.1节中Castro的预测模型、基于时间序列的移动平均法[24]进行对比。移动平均法是一种经典高效的时间序列预测方法,仅使用各个时段的基站服务用户数即可进行预测。实验以 60 min为时间粒度,根据式(9)定义的预测准确度,对本文提出的时空转移概率模型与Castro的预测模型、基于时间序列的移动平均法进行基站服务用户数预测的对比分析,以证明本文考虑人群移动时空特性和使用历史数据训练之后方法的有效性与准确性。

表2列出了3种模型预测准确率的统计值。对比60 min为时间粒度时,3种方法预测准确率的平均数、中位数,结果表明本文提出的时空转移概率方法在一天的多个时段预测准确率都保持较高水平,其中对基站服务用户数的平均预测准确率不低于94.6%,比Castro的模型预测准确率高5.1%,特别在人数波动较大、预测难度较大的8-9时和19-20时,运用前3周工作日手机数据进行训练获取时空改正项之后,模型准确率至少提高了4.2%(见表2的相应时段)。从时间序列角度出发的移动平均法在各个时段的预测准确率波动不大,平均预测准确率为79.79%。移动平均法在不同时段预测准确率的四分位数之差Q3-Q1较大,这主要是由于移动平均法是一种常用的时间序列预测方法,该方法受历史数据的影响很大,没有考虑基站之间的人群流动的时空特性,当基站服务用户数出现突增突减时,预测准确率明显低于另外两种方法。图5(a)给出了不同模型预测准确率分布情况,本文方法的预测准确率优于Castro的模型、基于时间序列的移动平均法。

表2   3种模型的准确率对比

Tab. 2   Accuracy results of three prediction models

时刻时空转移概率模型Castro的模型移动平均法
均值中值Q3-Q1均值中值Q3-Q1均值中值Q3-Q1
8时0.9500.9560.0640.8960.9070.1050.8190.8210.171
9时0.9630.9620.0510.9390.9420.0790.8210.8210.165
10时0.9660.9650.0510.9430.9440.0790.8000.8050.179
11时0.9630.9620.0500.9430.9440.0780.8020.8110.175
12时0.9550.9550.0580.9370.9400.1000.7780.7910.197
13时0.9660.9660.0480.9420.9430.0940.7740.7880.196
14时0.9640.9640.0540.9410.9410.0840.7770.7880.192
15时0.9660.9670.0510.9470.9500.0750.7820.7920.186
16时0.9610.9640.0540.9410.9430.0780.7910.8000.182
17时0.9570.9600.0570.9180.9250.0920.7860.8030.183
18时0.9460.9480.0790.9150.9200.1310.8020.7990.180
19时0.9480.9510.0800.8950.9060.1920.7980.7990.177
20时0.9650.9630.0500.9220.9160.1280.7850.7900.181
21时0.9680.9670.0500.9030.9060.1420.7700.7820.203

新窗口打开

图5   模型对比和预测准确率分布

Fig. 5   The accuracy distributions of three prediction models

图5(b)、(c)、(d)表示时间粒度为60 min时,3种方法所对应的基站服务用户数预测准确率的箱图,超出区间[Q1-1.5IQR,Q3+1.5IQR]的值为异常值,图5中红色的小圆表示异常值。其中,Q1、Q3分别表示下四分位数、上四分位数,IQR=Q3-Q1表示四分位距。四分位数之差(Q3-Q1)主要用于测度各种方法预测准确率的离散程度。由表2中可知,本文提出的时空转移概率预测模型对不同基站的预测准确率的四分位数之差处于0.048-0.080之间,Castro的模型预测准确率四分位数之差处于0.075-0.192,基于时间序列的移动平均法则处于0.165-0.203。本文方法的预测准确率四分位数之差小于其他2种方法,说明本文的预测方法对不同基站服务用户数的预测具有很好的稳定性和适用性。相对移动平均法来说,时空转移概率模型异常值较多,但从异常值的分布来看,时空转移概率模型的异常值也保持在较高水平,在0.7-0.8之间,Castro的模型则集中在0.6-0.75之间,移动平均法的异常值准确率则低于0.5。因此,60 min为时间粒度时,本文提出的时空转移概率预测模型,能更加准确和稳定地预测基站服务用户数。

4.2.2 不同时间粒度下的模型结果分析

对20、40、60、80、100和120 min 6个时间粒度下本文模型的预测准确率进行对比分析。图6为不同时间粒度下预测准确率对比图,除了20 min这一时间粒度,基站服务用户数的预测准确率随着时间呈现相似的变化趋势。在人群流动频繁的17-19时晚高峰时段,模型预测准确率降低了2%。14-16时为一天中基站服务用户数预测最为准确的时段,偏差小于4%。

图6   不同时间粒度下时空转移概率模型的准确率对比

Fig. 6   Comparisons of prediction accuracy in different temporal granularities

以20 min为时间粒度时,本文模型的预测准确率较低,且各时段波动较大,在人群流动频繁的早晚高峰和午休时段,体现得尤为明显。例如,在13-14时和19-20时,以人群流动频繁的时段的基站服务用户数和基站间用户流动为基础进行下一时段的预测,时空转移概率模型预测准确率大大降低。

在40 min、60 min为时间粒度时,基站服务用户数的预测准确率随着时间粒度的增大逐渐提高,并且各个时段预测效果稳定,具体的准确率统计见表3。以60 min为时间粒度的基站服务用户数预测平均预测准确率比40 min粒度时高出3%。以80、100和120 min为时间粒度时,预测准确率并没有因为时间粒度增大、基站间的手机用户流动数据更加充足而有所提升,这是由于时间粒度越大,受用户移动规律的影响,前一时段的基站服务用户数与所预测的时段用户数相差较大。

表3   不同时间粒度下模型平均预测准确率

Tab. 3   Average prediction accuracy in different temporal granularities

时间粒度/min时空转移概率模型Castro的模型移动平均法
200.9100.9240.819
400.9570.9390.807
600.9630.9310.799
800.9590.9100.804
1000.9550.8900.809
1200.9530.8710.812

新窗口打开

表3列出了不同时间粒度下3种模型的平均预测准确率。在20 min的短时预测中,Castro的模型略优于时空转移概率方法,当时间粒度变为40 min及以上时,本文方法的预测准确率在各个时段都高于Castro的模型。移动平均法对时间粒度不敏感,在6个时间粒度下,预测准确率几乎不变,都处在较低水平。从现势性上来说,20 min相对而言时间粒度小,需要更好地反映当前的基站真实服务用户数,但受临时性事件等不确定因素的影响较大。图7给出了20 min和40 min时间粒度下3种方法在8-21时的预测准确率,20 min时间粒度下在12-13时、18-19时等人口流动频繁的时段,Castro的模型优于本文模型。在人口流动相对较少的时段,如10-11时、14-16时,本文模型优于Castro的模型,历史轨迹数据在基站服务用户数的短时预测上的作用并不明显。参照图5(a),当时间粒度变为40 min和60 min时,历史轨迹数据对基站服务用户数预测准确率提高了5.1%。因此,在小于20 min的短时预测上,Castro的模型具备一定的优越性;在大于20 min的时间粒度下,本文所提出的模型预测性能相对较好。

图7   3种方法在不同时间粒度的准确率对比

Fig. 7   Accuracy comparison between three methods in different temporal granularities

5 结语

本文结合马尔可夫链和贝叶斯定理,从群体角度出发提出了一种基于手机位置时空转移概率的基站服务用户数预测方法。该方法综合考虑城市人群移动的时空特性,适用于城市区域尺度的区域人数预测。实验表明:该方法的平均预测准确率达到94.8%,比Castro的模型高5.1%,比基于时间序列的移动平均法高17%。本文提出的方法定量化表达人类移动时空特性,具有较好的手机基站服务用户数预测准确率。该方法除了为基站设置和带宽配置提供智能决策依据,还可为人群聚集预警、公众出行服务等提供城市人口分布预测信息参考,辅助预防开放区域人群踩踏等安全事故。本文研究目前只关注工作日的规律,对周末出行模式以及周五的模式由于数据受限,尚未做深入对比,将在后续研究中陆续展开;此外,该预测算法应用于不同规模城市区域人数的预测效果还有待验证。

The authors have declared that no competing interests exist.


参考文献

[1] Meng H, Long F, Guo L, et al.

Cooperating base station location optimization using genetic algorithm

[C]// Chinese Control and Decision Conference, 2016:4820-4824.

[本文引用: 1]     

[2] Lin C H R, Liao H J, Lin Y C, et al.

An efficient tabu search for cell planning problem in mobile communication

[J]. Wireless Communications & Mobile Computing, 2016,16(4):486-496.

https://doi.org/10.1002/wcm.2549      URL      [本文引用: 1]      摘要

During the past decades, mobile communication is in the vigorous development, where the cell planning problem (CPP) is one of impressive research issues. CPP has been proved to be NP-Complete, and many works develop intelligent heuristic search strategies to solve it. Among many factors to affect the cell planning, the major one is the signaling cost, where the location management is critical to the cost. In this paper, we focus on how to tackle CPP such that the signaling cost can be minimized. We adopt a meta-heuristic iterative search algorithm, Tabu Search (TS), to deal with the cell planning issue for the base station and propose novel designs to improve the TS capability, including initialization and neighbor swap strategy. The simulation results reveal that our TS outperforms traditional TS, genetic algorithms, and several previous works in CPP. Copyright 2014 John Wiley & Sons, Ltd.
[3] Ghazzai H, Yaacoub E, Alouini M, et al.

Optimized LTE cell planning with varying spatial and temporal user densities

[J]. IEEE Transactions on Vehicular Technology, 2016,65(3):1575-1589.

https://doi.org/10.1109/TVT.2015.2411579      URL      [本文引用: 1]      摘要

Base station (BS) deployment in cellular networks is one of the fundamental problems in network design. This paper proposes a novel method for the cell planning problem for fourth-generation (4G) cellular networks using metaheuristic algorithms. In this approach, we aim to satisfy both cell coverage and capacity constraints simultaneously by formulating an optimization problem that captures practical planning aspects. The starting point of the planning process is defined through a dimensioning exercise that captures both coverage and capacity constraints. Afterward, we implement a metaheuristic algorithm based on swarm intelligence (e.g., particle swarm optimization or the recently proposed gray-wolf optimizer) to find suboptimal BS locations that satisfy both problem constraints in the area of interest, which can be divided into several subareas with different spatial user densities. Subsequently, an iterative approach is executed to eliminate eventual redundant BSs. We also perform Monte Carlo simulations to study the performance of the proposed scheme and compute the average number of users in outage. Next, the problems of green planning with regard to temporal traffic variation and planning with location constraints due to tight limits on electromagnetic radiations are addressed, using the proposed method. Finally, in our simulation results, we apply our proposed approach for different scenarios with different subareas and user distributions and show that the desired network quality-of-service (QoS) targets are always reached, even for large-scale problems.
[4] 萧世伦,方志祥.

从时空GIS视野来定量分析人类行为的思考

[J].武汉大学学报·信息科学版,2014,39(6):667-670.

https://doi.org/10.13203/j.whugis20140127      URL      [本文引用: 1]      摘要

从面向城市科学发展所必须的人类行为研究需求出发,从时空GIS的视野来看人类行为研究的基础问题与研究方法,剖析时空GIS对定量分析人类行为研究中的理想与现实间的鸿沟,以及所存在的理论与方法挑战,总结了时空GIS支撑人类行为研究的能力与不足,为大数据时代的人类行为研究前沿探索拓展思路。

[ Shaw S L, Fang Z X.

Rethinking human behavior research from the perspective of space-time GIS

[J]. Geomatics and Information Science of Wuhan University, 2014,39(6):667-670. ]

https://doi.org/10.13203/j.whugis20140127      URL      [本文引用: 1]      摘要

从面向城市科学发展所必须的人类行为研究需求出发,从时空GIS的视野来看人类行为研究的基础问题与研究方法,剖析时空GIS对定量分析人类行为研究中的理想与现实间的鸿沟,以及所存在的理论与方法挑战,总结了时空GIS支撑人类行为研究的能力与不足,为大数据时代的人类行为研究前沿探索拓展思路。
[5] 周涛,韩筱璞,闫小勇,.

人类行为时空特性的统计力学

[J].电子科技大学学报,2013,4(4):481-540.

https://doi.org/10.3969/j.issn.1001-0548.2013.04.001      URL      [本文引用: 1]      摘要

人类行为的定量化分析,特别是时空统计规律的挖掘和建模,是当前统计物理与复杂性科学研究的热点。对人类行为的深入理解,有助于解释若干复杂的社会经济现象,并在舆情监控、疾病防治、交通规划、呼叫服务、信息推荐等方面产生应用价值。该文综述人类行为时间和空间特性方面的研究进展,内容包括人类行为时间特性的实证分析和建模,人类行为空间特性的实证分析和建模,以及人类行为统计分析的应用研究。该文还将评述当前研究存在的亮点和不足,指出若干亟待解决的重大理论和实际问题。

[ Zhou T, Han X P, Yan X Y, et al.

Statistical mechanics on temporal and spatial activities of human

[J]. Journal of University of Electronic Science and Technology of China, 2013,4(4):481-540. ]

https://doi.org/10.3969/j.issn.1001-0548.2013.04.001      URL      [本文引用: 1]      摘要

人类行为的定量化分析,特别是时空统计规律的挖掘和建模,是当前统计物理与复杂性科学研究的热点。对人类行为的深入理解,有助于解释若干复杂的社会经济现象,并在舆情监控、疾病防治、交通规划、呼叫服务、信息推荐等方面产生应用价值。该文综述人类行为时间和空间特性方面的研究进展,内容包括人类行为时间特性的实证分析和建模,人类行为空间特性的实证分析和建模,以及人类行为统计分析的应用研究。该文还将评述当前研究存在的亮点和不足,指出若干亟待解决的重大理论和实际问题。
[6] Hasan S, Schneider C M, Ukkusuri S V, et al.

Spatiotemporal patterns of urban human mobility

[J]. Journal of Statistical Physics, 2013,151(1):304-318.

https://doi.org/10.1007/s10955-012-0645-0      URL      摘要

The modeling of human mobility is adopting new directions due to the increasing availability of big data sources from human activity. These sources enclose digital information about daily visited locations of a large number of individuals. Examples of these data include: mobile phone calls, credit card transactions, bank notes dispersal, check-ins in internet applications, among several others. In this study, we consider the data obtained from smart subway fare card transactions to characterize and model urban mobility patterns. We present a simple mobility model for predicting peoples visited locations using the popularity of places in the city as an interaction parameter between different individuals. This ingredient is sufficient to reproduce several characteristics of the observed travel behavior such as: the number of trips between different locations in the city, the exploration of new places and the frequency of individual visits of a particular location. Moreover, we indicate the limitations of the proposed model and discuss open questions in the current state of the art statistical models of human mobility.
[7] 杨喜平,方志祥,赵志远,.

城市人群聚集消散时空模式探索分析——以深圳市为例

[J]. 地球信息科学学报,2016,18(4):486-492.

https://doi.org/10.3724/SP.J.1047.2016.00486      URL      Magsci      [本文引用: 1]      摘要

城市中人群的移动是带有目的性的,城市空间结构功能也存在差异,导致人群在城市中出现聚集或消散的现象,而且该现象会随着时间不断变化。本文基于海量的手机位置数据,以深圳市为例,采用自相关分析识别出城市中人群聚集与消散的区域,然后将这些区域一天中人群聚散组合成时间序列矩阵,采用自组织图聚类方法(SOM)进行聚类得到9种典型的人群聚集、消散时空模式,结合土地利用现状数据,分析解释了每种聚散模式最可能出现的土地利用组合。该研究从聚集和消散的角度探索了城市人群移动的时空模式,进一步帮助理解城市不同区域人群的移动模式以及与城市空间结构功能之间的关系,对城市规划、交通管理具有参考和指导意义。

[ Yang X P, Fang Z X, Zhao Z Y, et al.

Exploring urban human spatio-temporal convergence-disperison patterns: A case study of Shenzhen city,Journal of Geo-information

Science, 2016,18(4):486-492. ]

https://doi.org/10.3724/SP.J.1047.2016.00486      URL      Magsci      [本文引用: 1]      摘要

城市中人群的移动是带有目的性的,城市空间结构功能也存在差异,导致人群在城市中出现聚集或消散的现象,而且该现象会随着时间不断变化。本文基于海量的手机位置数据,以深圳市为例,采用自相关分析识别出城市中人群聚集与消散的区域,然后将这些区域一天中人群聚散组合成时间序列矩阵,采用自组织图聚类方法(SOM)进行聚类得到9种典型的人群聚集、消散时空模式,结合土地利用现状数据,分析解释了每种聚散模式最可能出现的土地利用组合。该研究从聚集和消散的角度探索了城市人群移动的时空模式,进一步帮助理解城市不同区域人群的移动模式以及与城市空间结构功能之间的关系,对城市规划、交通管理具有参考和指导意义。
[8] Do T M T, Gatica-Perez D.

Where and what: Using smartphones to predict next locations and applications in daily life

[J]. Pervasive & Mobile Computing, 2014,12(10):79-91.

https://doi.org/10.1016/j.pmcj.2013.03.006      URL      [本文引用: 1]      摘要

This paper investigates the prediction of two aspects of human behavior using smartphones as sensing devices. We present a framework for predicting where users will go and which app they will use in the next ten minutes by exploiting the rich contextual information from smartphone sensors. Our first goal is to understand which smartphone sensor data types are important for the two prediction tasks. Secondly, we aim at extracting generic (i.e., user-independent) behavioral patterns and study how generic behavior models can improve the predictive performance of personalized models. Experimental validation was conducted on the Lausanne Data Collection Campaign (LDCC) dataset, with longitudinal smartphone data collected over a period of 17 months from 71 users.
[9] Song C, Qu Z, Blumm N, et al.

Limits of predictability in human mobility

[J]. Science, 2010,327(5968):1018-1021.

[本文引用: 1]     

[10] Monreale A, Pinelli F, Trasarti R, et al.

WhereNext: a location predictor on trajectory pattern mining

[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, June 28 - July. 2009:637-646.

[本文引用: 2]     

[11] Xu Y, Shaw S L, Zhao Z, et al.

Another tale of two cities: understanding human activity space using actively tracked cellphone location data

[J]. Annals of the American Association of Geographers, 2016,106(2):489-502.

URL      摘要

Activity space is an important concept in geography. Recent advancements of location-aware technologies have generated many useful spatiotemporal data sets for studying human activity space for large populations. In this article, we use two actively tracked cellphone location data sets that cover a weekday to characterize people's use of space in Shanghai and Shenzhen, China. We introduce three mobility indicators (daily activity range, number of activity anchor points, and frequency of movements) to represent the major determinants of individual activity space. By applying association rules in data mining, we analyze how these indicators of an individual's activity space can be combined with each other to gain insights of mobility patterns in these two cities. We further examine spatiotemporal variations of aggregate mobility patterns in these two cities. Our results reveal some distinctive characteristics of human activity space in these two cities: (1) A high percentage of people in Shenzhen have a relatively short daily activity range, whereas people in Shanghai exhibit a variety of daily activity ranges; (2) people with more than one activity anchor point tend to travel further but less frequently in Shanghai than in Shenzhen; (3) Shenzhen shows a significant north-south contrast of activity space that reflects its urban structure; and (4) travel distance in both cities is shorter around noon than in regular work hours, and a large percentage of movements around noon are associated with individual home locations. This study indicates the benefits of analyzing actively tracked cellphone location data for gaining insights of human activity space in different cities.
[12] 许宁,尹凌,胡金星.

从大规模短期规则采样的手机定位数据中识别居民职住地

[J].武汉大学学报·信息科学版,2014,39(6):750-756.

https://doi.org/10.13203/j.whugis20140085      URL      [本文引用: 1]      摘要

使用大规模手机定位数据获取居民职住地分布是大数据趋势下城市研究的新兴技术.然而,现有的研究主要使用了长期不规则稀疏采样的手机通话数据,对短期规则采样的手机定位数据缺乏尝试.基于大规模短期规则采样的手机定位数据,提出了一种居民职住地识别的方法.这是首次从大规模短期规则采样的手机定位数据中进行居民职住地识别的尝试,并对识别结果进行了较全面的验证.该研究成果为职住平衡等相关城市问题研究探讨了一种新型大规模数据源的可行性,在低成本大幅度提高相关研究的样本代表性和分析结果可靠性上具有重要意义.

[ Xu N, Yin L, Hu J X.

Identifying home-work locations from short-term, large-scale, and regularly sampled mobile phone tracking data

[J]. Geomatics and Information Science of Wuhan University, 2014,39(6):750-756. ]

https://doi.org/10.13203/j.whugis20140085      URL      [本文引用: 1]      摘要

使用大规模手机定位数据获取居民职住地分布是大数据趋势下城市研究的新兴技术.然而,现有的研究主要使用了长期不规则稀疏采样的手机通话数据,对短期规则采样的手机定位数据缺乏尝试.基于大规模短期规则采样的手机定位数据,提出了一种居民职住地识别的方法.这是首次从大规模短期规则采样的手机定位数据中进行居民职住地识别的尝试,并对识别结果进行了较全面的验证.该研究成果为职住平衡等相关城市问题研究探讨了一种新型大规模数据源的可行性,在低成本大幅度提高相关研究的样本代表性和分析结果可靠性上具有重要意义.
[13] Deville P, Linard C, Martin S, et al.

Dynamic population mapping using mobile phone data

[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014,111(45):15888-93.

https://doi.org/10.1073/pnas.1408439111      URL      摘要

During the past few decades, technologies such as remote sensing, geographical information systems, and global positioning systems have transformed the way the distribution of human population is studied and modeled in space and time. However, the mapping of populations remains constrained by the logistics of censuses and surveys. Consequently, spatially detailed changes across scales of days, weeks, or months, or even year to year, are difficult to assess and limit the application of human population maps in situations in which timely information is required, such as disasters, conflicts, or epidemics. Mobile phones (MPs) now have an extremely high penetration rate across the globe, and analyzing the spatiotemporal distribution of MP calls geolocated to the tower level may overcome many limitations of census-based approaches, provided that the use of MP data is properly assessed and calibrated. Using datasets of more than 1 billion MP call records from Portugal and France, we show how spatially and temporarily explicit estimations of population densities can be produced at national scales, and how these estimates compare with outputs produced using alternative human population mapping methods. We also demonstrate how maps of human population changes can be produced over multiple timescales while preserving the anonymity of MP users. With similar data being collected every day by MP network providers across the world, the prospect of being able to map contemporary and changing human population distributions over relatively short intervals exists, paving the way for new applications and a near real-time understanding of patterns and processes in human geography.
[14] 吴健生,黄力,刘瑜,.

基于手机基站数据的城市交通流量模拟

[J].地理学报,2012,67(12):1657-1665.

https://doi.org/10.11821/xb201212007      URL      Magsci      [本文引用: 1]      摘要

基于移动定位数据的城市内社会经济活动特征分析是人类移动性的重要研究内容,而交通流量更是这些特征的基本反映。为还原城市道路网络的使用情况并分析其分布特征,本文从产生交通流量的个体出发,对包含基站位置的手机话单数据进行系统抽样,利用蒙特卡洛方法产生个体的出行起止点,并结合当地道路交通网络求得最短路径,最后估算出一天内道路交通网络上的流量分布。通过分析发现:城市内大部分道路的流量小,使用率低,大部分交通流量集中在小部分主干道路;进一步统计分析可知,当地道路交通流量符合20/80规律,即大约20%的道路承担着80%的交通流量;而对不同类型的道路,流量分布也反映出其在城市道路网络中的地位和作用。此研究对于历史交通流量分布的重现、城市道路交通模式的研究以及基于此的道路网络规划情景模拟都有着重要意义。

[ Wu J S, Huang L, Liu Y, et al.

Traffic flow simulation based on call detail records

[J]. Acta Geographic Sinica, 2012,67(12):1657-1665. ]

https://doi.org/10.11821/xb201212007      URL      Magsci      [本文引用: 1]      摘要

基于移动定位数据的城市内社会经济活动特征分析是人类移动性的重要研究内容,而交通流量更是这些特征的基本反映。为还原城市道路网络的使用情况并分析其分布特征,本文从产生交通流量的个体出发,对包含基站位置的手机话单数据进行系统抽样,利用蒙特卡洛方法产生个体的出行起止点,并结合当地道路交通网络求得最短路径,最后估算出一天内道路交通网络上的流量分布。通过分析发现:城市内大部分道路的流量小,使用率低,大部分交通流量集中在小部分主干道路;进一步统计分析可知,当地道路交通流量符合20/80规律,即大约20%的道路承担着80%的交通流量;而对不同类型的道路,流量分布也反映出其在城市道路网络中的地位和作用。此研究对于历史交通流量分布的重现、城市道路交通模式的研究以及基于此的道路网络规划情景模拟都有着重要意义。
[15] Dash M, Koo K K. Krishnaswamy S P, et al.

Visualize people's mobility-both individually and collectively-using mobile phone cellular data

[C]//Mobile Data Management (MDM), 2016 17th IEEE International Conference on. IEEE, 2016,1:341-344.

[本文引用: 2]     

[16] 戴蓉蓉,朱海红,李霖.

基于ARIMA模型的市内人群移动预测

[J].测绘工程,2016,25(2):38-41.

[本文引用: 3]     

[ Dai R R, Zhu H H, Li L.

Intra-urban human mobility prediction based on ARIMA model

[J]. Engineering of Surveying and Mapping, 2016,25(2):38-41. ]

[本文引用: 3]     

[17] 刘红梅,刘建平.

基于灰色模型的韶山红色旅游景区客源预测

[J].经济地理,2010,30(6):1047-1051.

[本文引用: 3]     

[ Liu H M, Liu J P.

Predicting tourists of Shaoshan red tourism scenic spots on gray model

[J]. Economic Geography, 2010,30(6):1047-1051. ]

[本文引用: 3]     

[18] Fan Z, Song X, Shibasaki R, et al.

CityMomentum: an online approach for crowd behavior prediction at a citywide level

[C]//Proceedings of the 2015 ACM International Joint Conference on Pervasive and Ubiquitous Computing. ACM, 2015:559-569.

[本文引用: 3]     

[19] Liang V C, Ma R T B, Ng W S, et al.

Mercury: Metro density prediction with recurrent neural network on streaming CDR data

[C]//Data Engineering (ICDE), 2016 IEEE 32nd International Conference on. IEEE, 2016: 1374-1377.

[本文引用: 1]     

[20] Spiegelhalter D J.

Bayesian Analysis in Expert Systems

[J]. Statistical Science, 1993,8(3):219-247.

https://doi.org/10.1214/ss/1177010888      URL      [本文引用: 3]      摘要

We review recent developments in applying Bayesian probabilistic and statistical ideas to expert systems. Using a real, moderately complex, medical example we illustrate how qualitative and quantitative knowledge can be represented within a directed graphical model, generally known as a belief network in this context. Exact probabilistic inference on individual cases is possible using a general propagation procedure. When data on a series of cases are available, Bayesian statistical techniques can be used for updating the original subjective quantitative inputs, and we present a set of diagnostics for identifying conflicts between the data and the prior specification. A model comparison procedure is explored, and a number of links made with mainstream statistical methods. Details are given on the use of Dirichlet prior distributions for learning about parameters and the process of transforming the original graphical model to a junction tree as the basis for efficient computation.
[21] Meyn S P, Dsc R L T.

Markov Chains and Stochastic Stability

[M]. Singapore: World Scientific, 1999.

[本文引用: 3]     

[22] Castro P S, Zhang D, Li S.

Urban traffic modelling and prediction using large scale taxi GPS traces

[C]//International Conference on Pervasive Computing. Springer Berlin Heidelberg, 2012:57-72.

[本文引用: 1]     

[23] Sun S, Zhang C, Yu G.

A Bayesian network approach to traffic flow forecasting

[J]. IEEE Transactions on Intelligent Transportation Systems, 2006,7(1):124-132.

https://doi.org/10.1109/TITS.2006.869623      URL      [本文引用: 2]      摘要

A new approach based on Bayesian networks for traffic flow forecasting is proposed. In this paper, traffic flows among adjacent road links in a transportation network are modeled as a Bayesian network. The joint probability distribution between the cause nodes (data utilized for forecasting) and the effect node (data to be forecasted) in a constructed Bayesian network is described as a Gaussian mixture model (GMM) whose parameters are estimated via the competitive expectation maximization (CEM) algorithm. Finally, traffic flow forecasting is performed under the criterion of minimum mean square error (mmse). The approach departs from many existing traffic flow forecasting models in that it explicitly includes information from adjacent road links to analyze the trends of the current link statistically. Furthermore, it also encompasses the issue of traffic flow forecasting when incomplete data exist. Comprehensive experiments on urban vehicular traffic flow data of Beijing and comparisons with several other methods show that the Bayesian network is a very promising and effective approach for traffic flow modeling and forecasting, both for complete data and incomplete data
[24] Box G E P, Jenkins G M, Reinsel G C, et al.

Time series analysis: forecasting and control

[M]. New Jersey: John Wiley & Sons, 2015.

[本文引用: 1]     

/