地理时空三向聚类分析方法的构建与实践
程昌秀(1973-), 女, 新疆人, 教授, 主要从事地理时空数据分析等研究。E-mail: chengcx@bnu.edu.cn |
收稿日期: 2020-02-06
要求修回日期: 2020-04-22
网络出版日期: 2020-07-25
基金资助
国家重点研发计划(2019YFA0606901)
中国科学院战略性先导科技专项(XDA23100303)
版权
Tri-clustering: Construction and practice of space-time integrated analysis tool
Received date: 2020-02-06
Request revised date: 2020-04-22
Online published: 2020-07-25
Supported by
National Key R&D Program of China(2019YFA0606901)
Strategic Priority Research Program of the Chinese Academy of Sciences(XDA23100303)
Copyright
随着地理数据获取能力的不断提升,地理数据体量呈指数增长,数据种类、数据性质更加多元化。对数据的有效甄别和归类成为理解地理现象时空特征、演化过程和行为机制的关键。传统聚类方法面临数据体量大、维数高、质量差的挑战,加之对地理空间与时间关联分析的需求,对聚类方法改进和提升研究的要求越来越迫切。本文介绍了从单向到三向聚类构建思路的变革。单向聚类是仅在样本或属性方向上进行聚类,易忽视非常相似的局部特征、易犯“横看成岭侧成峰”的错误。双向聚类是基于数据矩阵内元素值的相似性,形成一个子矩阵分割方案,使子矩阵内元素相似度尽可能高,子矩阵间元素相似度尽可能低,从而实现行列两方向的同时聚类,避免了单向聚类的不足。鉴于双向聚类难以满足地理研究超出双向的解译需求,本文提出并研发了一个全新的三向聚类方法,给出了运用该方法开展地理时空格局过程探测的流程,总结了如何根据研究涉及的“空间—时间—尺度—属性”构建三维数据体;最后,展示了三向聚类的地理实践案例。结果表明:① 三向聚类是一种大数据时代探测地理数据时空分异规律的有效方法,可以解决数据维度高、质量低等问题;② 面对不同的地理问题,三向聚类在算法层面上是通用的,不同之处仅在于:根据不同问题涉及的空间、时间、尺度、属性的不同,构建不同的数据体;不同数据体聚类得到的不同结果回答不同的地理问题;③ 三向聚类可以实现地理数据的时空分异规律多方向、多尺度、多层次的联合解译,揭示地理特征时空尺度叠加效应。最后,论文强调根据地理问题组织数据的重要性,期待未来能够提升三向聚类在多空间尺度、多属性方面的地理研究实践。
关键词: 三向聚类; 空间—时间—尺度—属性; 联合解译; 时空局部相似性; 时空分异
程昌秀 , 宋长青 , 吴晓静 , 沈石 , 高培超 , 叶思菁 . 地理时空三向聚类分析方法的构建与实践[J]. 地理学报, 2020 , 75(5) : 904 -916 . DOI: 10.11821/dlxb202005002
With the improvement of geographic data acquisition capabilities, the volume of geographic data has been growing exponentially, and the data types as well as characteristics have become more diverse. The effective identification and classification of data has become the key to understand spatio-temporal patterns, evolutionary processes, and driving mechanisms of geographic phenomena. However, traditional clustering methods are facing some challenges, such as large amount, high-dimensionality and poor-quality of the data to be dealt with. Therefore, it is necessary to improve clustering methods. This paper first describes the transformation from one-way clustering to tri-clustering. One-way clustering methods perform the clustering analysis along with the samples or the attributes. They played an important role in previous studies, but ignored local features that are very similar. Co-clustering methods perform the submatrix partitioning scheme based on location similarity of elements within the data matrix. They avoid shortages of one-way clustering by realizing the clustering from both rows and columns, making similar elements into the same submatrix and dissimilar ones into different ones. However, they cannot satisfy multiple directions interpretations of geographical research since they do not support 3D panel data body. Then, we develop a new tri-clustering method, presents the workflow of using tri-clustering to spatio-temporal patterns' studies, and summarizes how to construct the 3D data matrix for clustering according to different aspects of 'space-time-scale-attribute' involved in the analysis. Finally, we show some practices of tri-cluster. The results show that: (1) Tri-clustering is an effective method to identify the spatio-temporal differentiation of geographic data in the era of big data by solving problems, i.e. data of high dimensionality and low quality. (2) Tri-clustering is universal in the algorithmic level when facing different geographic topics, but the differences rely on the 3D data matrices constructed according to different aspects of "space-time-scale-attribute" involved in the analysis. And, different data matrices are clustered to different results, which answer different topics. (3) Tri-clustering is able to interpret the spatio-temporal differentiation of geographic data in multiple directions, multiple scales, and multiple hierarchies, and thereby reveal the superposition effects of spatio-temporal scales of geographic features. Finally, we emphasize the significance of constructing 3D data matrices based on different geographic topics and expect that tri-clustering methods can enhance the ability to analyze geographic data with multiple spatial scales and attributes in the future.
表1 三向聚类核心算法的伪代码Tab. 1 Pseudo-code of tri-clustering |
算法:基于信息散度(I-divergence)的立方体平均三向类算法 |
---|
输入:O0 (数据立方体),k(方向1的聚簇数量),l(方向2的聚簇数量),m(方向3的聚簇数量), 输出:优化后的k×l×m的三向聚类结果 开始: 1. 初始化:基于原始数据O0,方向1~3上分别被随机分为k、l、m个区域(聚簇),该数据体和数据分割方案,记为Oi; 2. 对Oi 各区域内数据求均值,并用均值代替区内各元素,形成该分割方案下聚类结果的概化数据体; 3. 计算信息散度(目标函数):/*fi表征在该分割方案下的概化后的数据体()与概化前的数据体(Oi)的接近程度,值越小越接近;即数据子集内元素越相似、而数据子集间元素差异越大*/ 4. 开始迭代: 4.1 以Oi数据体及其分割方案为基础,在行或列或高的方向上,按一定规则,逐步尝试将Oi中的数据向量 在所属方向的不同区间移动或交换,形成新的数据体和分割方案,记为Oj; 4.2 对Oj各区域内数据求均值,并用均值代替区内各元素,形成该聚类结果的概化数据体; 4.3 计算信息散度: 4.4 若fj < fi,则Oi = Oj,fi = fj,并跳转到4、开始下一次迭代;否则,直接跳转到4、开始下一次迭代 5. 结束迭代(直到目标函数收敛) 结束 |
[1] |
[ 傅伯杰 . 地理学: 从知识、科学到决策. 地理学报, 2017,72(11):1923-1932.]
|
[2] |
[ 宋长青, 程昌秀, 史培军 . 新时代地理复杂性的内涵. 地理学报, 2018,73(7):1189-1198.]
|
[3] |
[ 王劲峰, 葛咏, 李连发 , 等. 地理学时空数据分析方法. 地理学报, 2014,69(9):1326-1345.]
|
[4] |
[ 程昌秀, 史培军, 宋长青 , 等. 地理大数据为地理复杂性研究提供新机遇. 地理学报, 2018,73(8):1397-1406.]
|
[5] |
[ 解焱, 李典谟 , John MacKinnon. 中国生物地理区划研究. 生态学报, 2002,22(10):1599-1615.]
|
[6] |
[ 王秀红 . 多元统计分析在分区研究中的应用. 地理科学, 2003,23(1):66-71.]
|
[7] |
[ 郑度, 欧阳, 周成虎 . 对自然地理区划方法的认识与思考. 地理学报, 2008,63(6):563-573.]
|
[8] |
[ 宋辞, 裴韬 . 基于特征的时间序列聚类方法研究进展. 地理科学进展, 2012,31(10):1307-1317.]
|
[9] |
|
[10] |
|
[11] |
[ 熊赟, 邱伯仁, 张坤 , 等. Gen-Cluster: 一个基因表达数据的高维聚类算法, 复旦大学学报(自然科学版), 2008,47(2):135-146.]
|
[12] |
[ 刘维, 陈崚 . 基因表达数据的并行双向聚类算法. 小型微型计算机系统, 2009,30(4):683-689.]
|
[13] |
[ 吴磊, 李舒 . 基于双向聚类方法的中医治疗中风病方剂配伍规律知识发现. 中国中医药信息杂志, 2013,20(11):16-19.]
|
[14] |
[ 徐速, 李维 . 精准医学研究热点的双向聚类计量分析. 医学与哲学, 2015,36(6B):1-34.]
|
[15] |
[ 牛玉敬, 胡亚平, 黎莉 . 全科医学研究热点双向聚类计量分析. 中国全科医学, 2016,19(36):4428-4433.]
|
[16] |
[ 姚强, 张研, 张士靖 . 双向聚类在文献计量学中的应用初探: 以医院绩效评价为例. 情报杂志, 2012,31(3):54-59.]
|
[17] |
[ 苏盼, 王安妮, 张杰 . 基于文献计量学的家庭照顾者相关研究现状及热点分析. 中华医学图书情报杂志, 2017,25(9):34-42.]
|
[18] |
[ 方全, 刘以珍, 林朝晖 , 等. 云居山栓皮栎群落特征及多样性研究. 植物科学学报, 2015,33(3):311-319.]
|
[19] |
|
[20] |
|
[21] |
[ 吴晓静, 程昌秀, 乔灿灿 , 等. 光温驱动下中国1979—2018年春季物候时空分异规律. 中国科学: 地球科学, 2020,50. Doi: 10.1360/SSTe-2019-0212.]
|
[22] |
|
[23] |
|
[24] |
[ 王劲峰, 徐成东 . 地理探测器: 原理与展望. 地理学报, 2017,72(1):116-134.]
|
/
〈 |
|
〉 |