地理时空三向聚类分析方法的构建与实践

程昌秀, 宋长青, 吴晓静, 沈石, 高培超, 叶思菁

Tri-clustering: Construction and practice of space-time integrated analysis tool

CHENG Changxiu, SONG Changqing, WU Xiaojing, SHEN Shi, GAO Peichao, YE Sijing

表1 三向聚类核心算法的伪代码

Tab. 1 Pseudo-code of tri-clustering

算法：基于信息散度(I-divergence)的立方体平均三向类算法

输入：O₀(数据立方体),k(方向1的聚簇数量),l(方向2的聚簇数量),m(方向3的聚簇数量),
输出：优化后的k×l×m的三向聚类结果
开始：
1. 初始化：基于原始数据O₀,方向1~3上分别被随机分为k、l、m个区域（聚簇）,该数据体和数据分割方案,记为O_i;
2. 对O_i各区域内数据求均值,并用均值代替区内各元素,形成该分割方案下聚类结果的概化数据体

{\overset{?}{O}}_{i}

;
3. 计算信息散度（目标函数）：

f_{i} = D (O_{i} | | {\overset{?}{O}}_{i})

/*f_i表征在该分割方案下的概化后的数据体(

{\overset{?}{O}}_{i}

)与概化前的数据体(O_i)的接近程度,值越小越接近;即数据子集内元素越相似、而数据子集间元素差异越大*/
4. 开始迭代：
4.1 以O_i数据体及其分割方案为基础,在行或列或高的方向上,按一定规则,逐步尝试将O_i中的数据向量在所属方向的不同区间移动或交换,形成新的数据体和分割方案,记为O_j;
4.2 对O_j各区域内数据求均值,并用均值代替区内各元素,形成该聚类结果的概化数据体

{\overset{?}{O}}_{j}

;
4.3 计算信息散度：

f_{j} = D (O_{j} | | {\overset{?}{O}}_{j})

4.4 若f_j < f_i,则O_i= O_j,f_i= f_j,并跳转到4、开始下一次迭代;否则,直接跳转到4、开始下一次迭代
5. 结束迭代（直到目标函数收敛）
结束