地理学报 ›› 2020, Vol. 75 ›› Issue (5): 904-916.doi: 10.11821/dlxb202005002
程昌秀1,2,3, 宋长青1,2(), 吴晓静1,2, 沈石1,2, 高培超1,2, 叶思菁1,2
收稿日期:
2020-02-06
修回日期:
2020-04-22
出版日期:
2020-05-25
发布日期:
2020-07-25
作者简介:
程昌秀(1973-), 女, 新疆人, 教授, 主要从事地理时空数据分析等研究。E-mail: chengcx@bnu.edu.cn
基金资助:
CHENG Changxiu1,2,3, SONG Changqing1,2(), WU Xiaojing1,2, SHEN Shi1,2, GAO Peichao1,2, YE Sijing1,2
Received:
2020-02-06
Revised:
2020-04-22
Published:
2020-05-25
Online:
2020-07-25
Supported by:
摘要:
随着地理数据获取能力的不断提升,地理数据体量呈指数增长,数据种类、数据性质更加多元化。对数据的有效甄别和归类成为理解地理现象时空特征、演化过程和行为机制的关键。传统聚类方法面临数据体量大、维数高、质量差的挑战,加之对地理空间与时间关联分析的需求,对聚类方法改进和提升研究的要求越来越迫切。本文介绍了从单向到三向聚类构建思路的变革。单向聚类是仅在样本或属性方向上进行聚类,易忽视非常相似的局部特征、易犯“横看成岭侧成峰”的错误。双向聚类是基于数据矩阵内元素值的相似性,形成一个子矩阵分割方案,使子矩阵内元素相似度尽可能高,子矩阵间元素相似度尽可能低,从而实现行列两方向的同时聚类,避免了单向聚类的不足。鉴于双向聚类难以满足地理研究超出双向的解译需求,本文提出并研发了一个全新的三向聚类方法,给出了运用该方法开展地理时空格局过程探测的流程,总结了如何根据研究涉及的“空间—时间—尺度—属性”构建三维数据体;最后,展示了三向聚类的地理实践案例。结果表明:① 三向聚类是一种大数据时代探测地理数据时空分异规律的有效方法,可以解决数据维度高、质量低等问题;② 面对不同的地理问题,三向聚类在算法层面上是通用的,不同之处仅在于:根据不同问题涉及的空间、时间、尺度、属性的不同,构建不同的数据体;不同数据体聚类得到的不同结果回答不同的地理问题;③ 三向聚类可以实现地理数据的时空分异规律多方向、多尺度、多层次的联合解译,揭示地理特征时空尺度叠加效应。最后,论文强调根据地理问题组织数据的重要性,期待未来能够提升三向聚类在多空间尺度、多属性方面的地理研究实践。
程昌秀, 宋长青, 吴晓静, 沈石, 高培超, 叶思菁. 地理时空三向聚类分析方法的构建与实践[J]. 地理学报, 2020, 75(5): 904-916.
CHENG Changxiu, SONG Changqing, WU Xiaojing, SHEN Shi, GAO Peichao, YE Sijing. Tri-clustering: Construction and practice of space-time integrated analysis tool[J]. Acta Geographica Sinica, 2020, 75(5): 904-916.
表1
三向聚类核心算法的伪代码
算法:基于信息散度(I-divergence)的立方体平均三向类算法 |
---|
输入:O0 (数据立方体),k(方向1的聚簇数量),l(方向2的聚簇数量),m(方向3的聚簇数量), 输出:优化后的k×l×m的三向聚类结果 开始: 1. 初始化:基于原始数据O0,方向1~3上分别被随机分为k、l、m个区域(聚簇),该数据体和数据分割方案,记为Oi; 2. 对Oi 各区域内数据求均值,并用均值代替区内各元素,形成该分割方案下聚类结果的概化数据体 3. 计算信息散度(目标函数): 4. 开始迭代: 4.1 以Oi数据体及其分割方案为基础,在行或列或高的方向上,按一定规则,逐步尝试将Oi中的数据向量 在所属方向的不同区间移动或交换,形成新的数据体和分割方案,记为Oj; 4.2 对Oj各区域内数据求均值,并用均值代替区内各元素,形成该聚类结果的概化数据体 4.3 计算信息散度: 4.4 若fj < fi,则Oi = Oj,fi = fj,并跳转到4、开始下一次迭代;否则,直接跳转到4、开始下一次迭代 5. 结束迭代(直到目标函数收敛) 结束 |
[1] |
Fu Bojie . Geography: From knowledge, science to decision making support. Acta Geographica Sinica, 2017,72(11):1923-1932.
doi: 10.11821/dlxb201711001 |
[ 傅伯杰 . 地理学: 从知识、科学到决策. 地理学报, 2017,72(11):1923-1932.]
doi: 10.11821/dlxb201711001 |
|
[2] |
Song Changqing, Cheng Changxiu, Shi Peijun . Geography complexity: New connotations of geography in the new era. Acta Geographica Sinica, 2018,73(7):1189-1198.
doi: 10.11821/dlxb201807001 |
[ 宋长青, 程昌秀, 史培军 . 新时代地理复杂性的内涵. 地理学报, 2018,73(7):1189-1198.]
doi: 10.11821/dlxb201807001 |
|
[3] |
Wang Jinfeng, Ge Yong, Li Lianfa , et al. Spatiotemporal data analysis in geography. Acta Geographica Sinica, 2014,69(9):1326-1345.
doi: 10.11821/dlxb201409007 |
[ 王劲峰, 葛咏, 李连发 , 等. 地理学时空数据分析方法. 地理学报, 2014,69(9):1326-1345.]
doi: 10.11821/dlxb201409007 |
|
[4] | Cheng Changxiu, Shi Peijun, Song Changqing , et al. Geographic big data: A new opportunity for geography complexity study. Acta Geographica Sinica, 2018,73(8):1397-1406. |
[ 程昌秀, 史培军, 宋长青 , 等. 地理大数据为地理复杂性研究提供新机遇. 地理学报, 2018,73(8):1397-1406.] | |
[5] | Xie Yan, Li Dianmo , John MacKinnon. Preliminary researches on bio-geographic divisions of China. Acta Ecologica Sinica, 2002,22(10):1599-1615. |
[ 解焱, 李典谟 , John MacKinnon. 中国生物地理区划研究. 生态学报, 2002,22(10):1599-1615.] | |
[6] | Wang Xiuhong . Application of multivariate statistical analysis in regionalization study. Scientia Geographica Sinica, 2003,23(1):66-71. |
[ 王秀红 . 多元统计分析在分区研究中的应用. 地理科学, 2003,23(1):66-71.] | |
[7] | Zheng Du, Ou Yang, Zhou Chenghu . Understanding of and thinking over geographic regionalization methodology. Acta Geographica Sinica, 2008,63(6):563-573. |
[ 郑度, 欧阳, 周成虎 . 对自然地理区划方法的认识与思考. 地理学报, 2008,63(6):563-573.] | |
[8] | Song Ci, Pei Tao . Research progress in time series clustering methods based on characteristics. Progress in Geography, 2012,31(10):1307-1317. |
[ 宋辞, 裴韬 . 基于特征的时间序列聚类方法研究进展. 地理科学进展, 2012,31(10):1307-1317.] | |
[9] | Hartigan J A . Direct clustering of a data matrix. Journal of the American Statistical Association, 1972,67(337):123-129. |
[10] | Cheng Y, Church G M. Biclustering of expression data. Eighth International Conference on Intelligent Systems for Molecular Biology. Menlo Park: AAAI Press, 2000: 93-103. |
[11] | Xiong Yun, Qiu Boren, Zhang Kun , et al. Gen-Cluster: An efficient gene expression data high dimensional clustering algorithm. Journal of Fudan University (Natural Science), 2008,47(2):135-146. |
[ 熊赟, 邱伯仁, 张坤 , 等. Gen-Cluster: 一个基因表达数据的高维聚类算法, 复旦大学学报(自然科学版), 2008,47(2):135-146.] | |
[12] | Liu Wei, Chen Ling . Parallel biclustering algorithm for gene expressing data. Journal of Chinese Computer Systems, 2009,30(4):683-689. |
[ 刘维, 陈崚 . 基因表达数据的并行双向聚类算法. 小型微型计算机系统, 2009,30(4):683-689.] | |
[13] | Wu Lei, Li Shu . Knowledge discovery on compatibility laws of TCM prescription for stroke disease based on biclustering method. Chinese Journal of Information on TCM, 2013,20(11):16-19. |
[ 吴磊, 李舒 . 基于双向聚类方法的中医治疗中风病方剂配伍规律知识发现. 中国中医药信息杂志, 2013,20(11):16-19.] | |
[14] | Xu Su, Li Wei . Analysis on the precision medicine research hotspots by biclustering. Medicine and Philosophy, 2015,36(6B):1-34. |
[ 徐速, 李维 . 精准医学研究热点的双向聚类计量分析. 医学与哲学, 2015,36(6B):1-34.] | |
[15] | Niu Yujin, Hu Yaping, Li Li . Biclustering econometric analysis of research hotspots of general medicine. Chinese General Practice, 2016,19(36):4428-4433. |
[ 牛玉敬, 胡亚平, 黎莉 . 全科医学研究热点双向聚类计量分析. 中国全科医学, 2016,19(36):4428-4433.] | |
[16] | Yao Qiang, Zhang Yan, Zhang Shijing . The application of biclustering in bibliometrics: A case study of performance evaluation of hospital. Journal of Intelligence, 2012,31(3):54-59. |
[ 姚强, 张研, 张士靖 . 双向聚类在文献计量学中的应用初探: 以医院绩效评价为例. 情报杂志, 2012,31(3):54-59.] | |
[17] | Su Pan, Wang Anni, Zhang Jie . Status quo and hot spots in studies on family caregivers: A bibliometric analysis. China Journal Medicine Library Information Science, 2017,25(9):34-42. |
[ 苏盼, 王安妮, 张杰 . 基于文献计量学的家庭照顾者相关研究现状及热点分析. 中华医学图书情报杂志, 2017,25(9):34-42.] | |
[18] | Fang Quan, Liu Yizhen, Lin Zhaohui , et al. Research on quercus variabilis community characteristics and diversity of Yunjun Mountain. Plant Science Journal, 2015,33(3):311-319. |
[ 方全, 刘以珍, 林朝晖 , 等. 云居山栓皮栎群落特征及多样性研究. 植物科学学报, 2015,33(3):311-319.] | |
[19] | Wu Xiaojing, Zurita-Milla R, Kraak M J . Co-clustering geo-referenced time series: Exploring spatio-temporal patterns in Dutch temperature data. International Journal of Geographic Information Science, 2015,29(4):624-642. |
[20] | Shen Shi, Cheng Changxiu, Song Changqing , et al. Spatial distribution patterns of global natural disasters based on biclustering. Natural Hazards, 2018,92(3):1809-1828. |
[21] | Wu Xiaojing, Cheng Changxiu, Qiao Cancan , et al. Spatio-temporal differentiation of spring phenology in China driven by temperatures and photoperiod from 1979 to 2018. Science China Earth Sciences, 2020,63. Doi: https://doi.org/10.1007/s11430-019-9577-5. |
[ 吴晓静, 程昌秀, 乔灿灿 , 等. 光温驱动下中国1979—2018年春季物候时空分异规律. 中国科学: 地球科学, 2020,50. Doi: 10.1360/SSTe-2019-0212.] | |
[22] | Wu X J, Zurita-Milla R, Izquierdo-Verdiguier E , et al. Triclustering georeferenced time series for analyzing patterns of intra-annual variability in temperature. Annals of the American Association of Geographers, 2018,108(1):71-87. |
[23] | Wu X J, Cheng C X, Zurita-Milla R , et al. An overview of clustering methods for geo-referenced time series: From one-way clustering to co- and tri-clustering. International Journal of Geographic Information Science, 2020. Doi: 10.1080/13658816.2020.1726922. |
[24] | Wang Jingfeng, Xu Chengdong . Geodetector: Principle and prospective. Acta Geographica Sinica, 2017,72(1):116-134. |
[ 王劲峰, 徐成东 . 地理探测器: 原理与展望. 地理学报, 2017,72(1):116-134.] |
[1] | 郭付友, 佟连军, 仇方道, 李一鸣. 黄河流域生态经济走廊绿色发展时空分异特征与影响因素识别[J]. 地理学报, 2021, 76(3): 726-739. |
[2] | 王成, 何焱洲. 重庆市乡村生产空间系统脆弱性时空分异与差异化调控[J]. 地理学报, 2020, 75(8): 1680-1698. |
[3] | 周鹏, 邓伟, 彭立, 张少尧. 典型山地水土要素时空耦合特征及其成因[J]. 地理学报, 2019, 74(11): 2273-2287. |
[4] | 潘汉雄,朱国锋,张昱,郭慧文,雍磊磊,万巧卓,马惠莹,李森. 中国耕地土壤相对湿度时空分异[J]. 地理学报, 2019, 74(1): 117-130. |
[5] | 秦雅,刘玉洁,葛全胜. 气候变化背景下1981-2010年中国玉米物候变化时空分异[J]. 地理学报, 2018, 73(5): 906-916. |
[6] | 张学波,于伟,张亚利,宋金平,王振波. 京津冀地区经济增长的时空分异与影响因素[J]. 地理学报, 2018, 73(10): 1985-2000. |
[7] | 任宇飞, 方创琳, 蔺雪芹. 中国东部沿海地区四大城市群生态效率评价[J]. 地理学报, 2017, 72(11): 2047-2063. |
[8] | 杨俊, 葛雨婷, 席建超, 葛全胜, 李雪铭. 长海县海岛旅游化效应时空分异研究[J]. 地理学报, 2016, 71(6): 1074-1094. |
[9] | 罗文, 袁林旺, 易琳, 俞肇元, 谢志仁. 基于验潮数据的西北太平洋区域海面变化预测[J]. 地理学报, 2011, 66(1): 111-122. |
[10] | 卢思佳, 张小雷, 雷军. 新疆铁路沿线城市与工业和谐度及其时空分异[J]. 地理学报, 2009, 64(8): 911-923. |
[11] | 卢金发, 崔书红, 林利, 黄秀华. 金衢盆地丘陵荒山土地退化评价及其时空分异特征——以兰溪市上华试验区为例[J]. 地理学报, 1997, 52(4): 339-344. |