理论方法与学科建设

面向机器学习型区域滑坡易发性评价的训练样本采样方法

  • 洪浩源 , 1 ,
  • 王德生 2 ,
  • 朱阿兴 3, 4
展开
  • 1.南京信息工程大学地理科学学院,南京 210044
  • 2.郑州师范学院地理与旅游学院,郑州 450044
  • 3.南京师范大学地理科学学院,南京 210023
  • 4.威斯康星大学麦迪逊分校地理系,美国麦迪逊 53706

洪浩源(1985-), 男, 江苏南京人, 博士, 讲师, 研究方向为人工智能和自然灾害易发性空间预测研究。E-mail:

收稿日期: 2023-12-28

  修回日期: 2024-06-27

  网络出版日期: 2024-07-30

基金资助

国家自然科学基金项目(41871300)

A new training data sampling method for machine learning-based landslide susceptibility mapping

  • HONG Haoyuan , 1 ,
  • WANG Desheng 2 ,
  • ZHU Axing 3, 4
Expand
  • 1. School of Geographical Sciences, Nanjing University of Information Science and Technology, Nanjing 210044, China
  • 2. School of Geography and Tourism, Zhengzhou Normal University, Zhengzhou 450044, China
  • 3. School of Geography, Nanjing Normal University, Nanjing 210023, China
  • 4. Department of Geography, University of Wisconsin-Madison, Madison, WI 53706, US

Received date: 2023-12-28

  Revised date: 2024-06-27

  Online published: 2024-07-30

Supported by

National Natural Science Foundation of China(41871300)

摘要

训练样本在基于机器学习的区域滑坡易发性评价中具有重要作用,训练样本通常是由滑坡(正样本)和非滑坡(负样本)组成,由采样方法采集得到。然而,现有正样本采样方法均没有度量所采集正样本的可信度,使得所采集训练样本可靠性得不到保证,制约了机器学习的区域滑坡易发性评价效果。针对这一问题,本文提出滑坡正样本原型采样方法(PBS),该方法利用某点与滑坡正样本原型的地理环境相似度和不相似度分别度量正样本与负样本的可信度,基于互斥法设置可信度阈值采集训练样本。以甘肃省油房沟流域为研究区,将PBS与已有代表性采样方法分别对油房沟流域构建基于逻辑回归、支持向量机和随机森林的滑坡易发性推测模型,对比有可信度和无可信度样本下的滑坡易发性评价效果。结果发现,正样本和负样本可信度与滑坡易发性评价效果分别呈现“波动上升”与“正相关”的特点,PBS方法在基于3种机器学习模型的滑坡易发性评价的验证精度(Accuracy)和接收者操作特征曲线下面积(AUC)值比已有代表性采样方法分别至少提高了14.7%和14%,且标准差均较小,表明本文所提出方法是有效的。

本文引用格式

洪浩源 , 王德生 , 朱阿兴 . 面向机器学习型区域滑坡易发性评价的训练样本采样方法[J]. 地理学报, 2024 , 79(7) : 1718 -1736 . DOI: 10.11821/dlxb202407006

Abstract

Training samples play an important role in machine learning-based regional landslide susceptibility evaluation. These samples consist of both landslide (positive) and nonlandslide (negative) samples collected through various sampling methods. However, existing methods for positive sample collection do not measure the reliability of the collected samples, leading to uncertainty in terms of reliability. To address this issue, this paper presents a landslide prototype sampling method (PBS). This method uses the geographical similarity and dissimilarity between a certain point and the landslide positive sample prototype to measure the reliability of positive and negative samples, respectively. A reliability threshold is set based on a mutual exclusion method to collect training samples. The Youfanggou Basin in Gansu province was chosen as the research area. The PBS and existing representative sampling methods were used to construct landslide susceptibility prediction models based on logistic regression, support vector machines, and random forests for the Youfanggou Basin. The evaluation effects of landslide susceptibility were compared between the reliable and nonreliable samples. The reliability of the positive and negative samples exhibited a "fluctuating increase" and "positive correlation", respectively, in the evaluation of landslide susceptibility. The PBS method improved the accuracy and area under the receiver operating characteristic curve (AUC) of the landslide susceptibility evaluation based on the three machine learning models by at least 14.7% and 14%, respectively, compared to the existing representative sampling methods, and the standard deviation was small, which indicates that the method proposed in this article is effective.

1 引言

滑坡是一种危害性大的自然灾害,在全球范围内常造成大量的人员伤亡和经济损失,严重影响人类社会的生存与经济可持续发展[1-2]。滑坡易发性是指在当地地形地貌等环境条件下某一区域发生滑坡的可能性[3-4]。准确的滑坡易发性的空间分布信息可以为政府部门提供科学的信息和建议,在防灾减灾以及土地规划和利用方面发挥重要的作用[5-6]。区域滑坡易发性评价是获取滑坡易发性空间分布信息的主要方法,基于机器学习的区域滑坡易发性评价是目前研究的热点和前沿,该类方法的理论基础是“滑坡易发性—环境因子关系”模型,其基本假设是滑坡易发性与环境变量之间存在着协同变化的关系,一旦获取这种关系,就可以推测研究区的滑坡易发性[7-8]
训练样本是获取“滑坡易发性—环境因子关系”的一种常用的数据[9-12]。训练样本通常是由滑坡(正样本)和非滑坡(负样本)组成,由采样方法采集得到[13-16]。现有正样本采样方法一般可以分为3类:实体法、邻域法和统计法[17-21]。实体法是指在滑坡破坏和堆积的全部区域(滑坡多边形内部)采集一个或多个像元作为正样本,代表性方法包括单个像元法和全部像元法。但是,实体法仅选取一个或者多个像元作为正样本,势必会忽略或者夸大某些点的代表程度,导致训练样本可靠性受到影响。邻域法是指正样本采集区域来自滑坡实体附近的缓冲区域,这些区域能够表现出没有被滑坡所影响的地理环境特征,代表性方法为种子像元法。但是,该类方法在设置缓冲区阈值时存在较大的主观性,这些缓冲区内的像元是否能够真实代表滑坡发生的环境特征也无法判断,其中可能存在一些像元与不产生滑坡的环境特征更吻合,那么这些像元作为正样本,会降低正样本的可信度,影响训练样本采集的可靠性。统计法是指利用邻域法中缓冲区所得的样本,提取这些样本所在的环境因子值,进行聚类分析,然后选择类簇中心作为正样本,代表性方法为模糊C均值聚类法。然而,该方法所采用的初始缓冲区样本由专家设置所得,这些初始缓冲区样本作为正样本的可靠性未知,其中有许多像元与不产生滑坡的环境特征更吻合,更应该被当作负样本,尽管该方法对这些初始缓冲区样本进行聚类和挑选,但是依然会降低滑坡正样本的可靠性。因此,现有的正样本采集方法均未度量所采集正样本的可信度,导致所采集正样本的可靠性未知,使得所采集的正样本质量受到影响,制约了滑坡易发性评价的效果。
负样本采集方法分为专家经验法和正样本驱动法[22-27]。专家经验法是指专家根据已有经验知识直接或间接设置一些环境因子的值域,对负样本的采集区域进行判断,但该类方法所采集的负样本依赖于专家经验知识,此外,专家经验的主观性使得负样本中可能存在伪负样本,同时该类方法也未度量所采集的负样本的可信度,影响了负样本的质量,导致滑坡易发性评价的效果受到影响。正样本驱动法是指在地理空间或特征空间中利用与正样本不相似的区域采集负样本,代表性方法包括缓冲区控制法,特征空间拓展法和相似度法等。缓冲区控制法是指滑坡正样本点附近的地理环境特征与该点所具有的地理环境特征类似,故负样本需在离正样本点特定距离之外的范围进行随机采集。但是,缓冲区阈值设置较为主观,缓冲区中包含一些容易产生滑坡的地区,只是这些地区还未发生滑坡,因此,在利用缓冲区的方法采集负样本的过程中,这些将来可能产生滑坡的点也会被采集为负样本,从而影响到负样本的可靠性。为解决缓冲区阈值主观性强的问题,有学者提出特征空间拓展法,该方法认为由环境因子所构成的特征空间中,正样本与负样本应该是分离的,故将正样本向外拓展以获得滑坡样本在特征空间的“闭合圈”,而“闭合圈”之外的区域则可用来采集负样本。但是,特征空间拓展法的缺点为负样本只能存在于环境特征空间中,不是研究区中实际存在的栅格点(即该研究区不存在如此影响因素组合的点)。因此,该方法不能把负样本从特征空间转换至地理空间进行可信度检验,从而导致负样本的可信度无法度量,影响了负样本的可靠性,导致滑坡易发性评价的精度将受到影响。为了解决特征空间拓展法中负样本不是研究区中实际存在的栅格点的问题,有学者提出相似度采样法,该方法以地理学第三定律为理论基础,该方法认为负样本的可信度可利用与正样本点的不相似度来度量。但是,该方法需要选择正样本作为数据基础,其假设正样本可信度已知,但是该方法并未对正样本可信度进行度量,导致负样本的可靠性依然无法保证[28]。总之,正样本驱动法所采集负样本质量均取决于正样本的质量,如果正样本的可信度未知,那么基于该类方法所采集的负样本的质量也难以得到保证。
综上所述,训练样本集的质量对机器学习型区域滑坡易发性评价精度有重要影响。然而现有训练样本采集方法均没有度量所采集正样本的可信度,使得所采集的训练样本可靠性得不到保证,同时,也无法通过控制训练样本可信度提高所得的滑坡易发性与环境关系的质量,以提升机器学习型区域滑坡易发性评价的效果。
本文提出如何度量正样本的可信度,如何提高训练样本采集的可靠性以提升机器学习型区域滑坡易发性评价的效果等科学问题,基于原型理论,利用某点与滑坡正样本原型的地理环境相似度来度量正样本可信度,从而提升训练滑坡样本采集的质量,利用机器学习模型从具有可信度的训练样本集及环境因子数据来建立预测模型,对滑坡易发性进行评价,本文所设计方法最显著的特点是可以通过设置正样本和负样本可信度的阈值提高滑坡易发性评价精度。

2 研究方法

2.1 基本思想

通过对滑坡发生的机理分析可知,滑坡的孕育、发展、形成和演化的天然过程与其所具备的地理环境关系密切。解决本文科学问题的核心是获取滑坡发生的典型地理环境特征。原型理论由认知心理学家Rosch等于20世纪70年代提出,认为在分类过程中一些成员比其他成员更能够代表某一类别[28-29]。因此,在类别内部各个成员的定位抽象地表示成从中心到外围递减的分级结构,处于中心位置的成员是该类别的典型案例[28-29]。本文借鉴原型理论来实现这一过程,本文中滑坡正样本原型是指滑坡多边形内大多数点(像元)所具有的地理环境特征,这些点(像元)最能够体现滑坡发生的典型地理环境特征[16]
当获取滑坡正样本原型后,正样本和负样本的可信度的度量主要包含2个阶段。第一个阶段是正样本可信度度量,在由多个影响滑坡发生的环境因子所构成的地理环境特征空间中,如果某点与滑坡正样本原型的环境因子越相似,那么该点将要发生滑坡的可能性越大,其被选为正样本的可信度应越高;第二个阶段是负样本可信度度量,在地理环境特征空间中,如果某点与滑坡正样本原型的环境因子越不相似,那么该点将要发生滑坡的可能性越小,其被选为负样本的可信度应越高(图1)。基于滑坡正样本原型的滑坡易发性评价是通过机器学习方法来实现,主要包括两个方面,一是样本可信度与滑坡危险度评价精度的关系;二是有可信度与无可信度样本下的对比。
图1 滑坡正样本原型基本思想

Fig. 1 Basic idea of the landslide prototype

2.2 基于滑坡正样本原型采样方法(PBS)的关键步骤

2.2.1 滑坡正样本原型的提取与数据库构建

本文采用频率采集方法来获取滑坡正样本原型[30-31]。基于频率曲线采集的主要步骤为:① 为滑坡多边形所具有的环境因子组合中的每一个环境因子构建频数直方图;② 鉴于滑坡的各个环境因子的值域范围、分布形式和类型均不一致,因此应按照各环境因子的特点为各环境因子建立恰当的直方图组距,组距的建立采用如下经验公式[32]
b i n e = 2 × I Q R e × n - 1 3
式中: b i n e是环境因子e的直方图组距;n I Q R e分别是环境因子e的点位数量和四分差。
③ 将环境因子值位于最大频率区间的像元点认为是环境因子所具有的正样本原型,如果某一个环境因子在两个或多个组距上的点数量一致且均为最大点,那么可将这些点都选为正样本原型;④ 汇总各环境因子所具有的正样本原型构建滑坡正样本原型库。

2.2.2 地理环境相似度计算与训练样本可信度度量

基于滑坡正样本原型的地理环境相似度计算流程主要包括[16,27,31]:① 地理环境因子的选择与分类,即根据数据类型的不同,把挑选后的地理环境因子分为离散型环境因子和连续型环境因子;② 单个环境因子相似度的计算,即推算研究区全部栅格点的各个环境因子与该因子下正样本原型之间的相似度;文中采用频率比和核密度函数方法分别计算离散型和连续型环境因子与滑坡正样本原型发生频率之间的函数关系;③ 综合环境因子相似度的计算,即综合全部栅格点中各环境因子的相似度,计算该栅格点与正样本原型的综合相似度,计算公式如下:
S = f ( s 1 ,   s 2 ,   ,   s k ,   ,   s n )
式中:sk为第k个环境因子与该因子正样本原型的相似度;S为综合环境因子相似度,其值域为[0,1];f为综合方法函数,平均值法较为常用,论文中采用该方法对S进行综合。
④ 正样本与负样本可信度计算。根据本文提出的假设,可以推断出正样本可信度以及负样本可信度计算公式如下:
R e l i a b i l i t y i ,   j = S i , j
R e l i a b i l i t y i ,   j ' = 1 - S i ,   j
式中: S i , j ( i ,   j )点与正样本原型的地理环境相似度值; R e l i a b i l i t y i , j ( i ,   j )点正样本可信度的值; R e l i a b i l i t y i , j ' ( i ,   j )点负样本可信度的值。正样本可信度值域为[0,1],值越大表明正样本可信度越高,同理,负样本可信度值域为[0,1],值越大表明负样本可信度越高。

2.2.3 可信度阈值设置与样本采集方法

通过对正样本可信度、负样本可信度的综合考虑,也为了解决采集间隔过大致使无法表现不同可信度阈值下滑坡样本之间的差异,以及采集间隔过小致使结果冗余、归纳分析受阻等难题,本文提出一种互斥可信度阈值设置方法对样本可信度的采集间隔和采集区间进行设置,使得正样本集和负样本集在环境特征空间中分离,进而可以获得具有高可信度滑坡训练样本集,从而提高滑坡易发性评价的质量。互斥可信度阈值设置方法具体的步骤为:① 通过对正样本和负样本的可信度进行计算后,可以获得正样本可信度和负样本可信度空间分布图;② 根据滑坡正、负样本可信度的阈值,分别获得不同可信度值域下正样本和负样本可采集区域;③ 在各自的采集区域内随机采集相同数量的正、负样本,组成具有可信度的训练样本集。其中正、负样本可信度值域采集间隔设置为0.1,采样区间为0.5~1。

3 案例应用

3.1 研究区概况与数据来源

3.1.1 研究区概况

油房沟流域地处甘肃省陇南市武都县安化镇[33-35](32°35′45″N~34°32′00″N, 104°01′19″E~106°35′20″E),总面积约为49.74 km2图2)。油房沟流域地势北高南低起伏较大,平均海拔高程2000 m以上,河谷深切,坡度平均值大于20° [33-38]。油房沟流域属于亚热带季风气候,温暖湿润,暴雨频发,滑坡灾害发生较多,导致很多人员伤亡,制约了该区域工、农业生产和经济的发展[33-38]
图2 油房沟流域地理位置和滑坡灾害分布

Fig. 2 Location and distribution of landslides in the Youfanggou Basin

3.1.2 历史滑坡数据

油房沟流域共判别65个滑坡体[33-38],其中基岩滑坡数量为12个、崩塌数量为17个和黄土滑坡为36个,全部滑坡的面积为7.24 km2,总体积达107.8 km3,其中,最大和最小滑坡面积分别是0.46 km2和5.23×10-3 km2。为了便于后期计算分析,按照滑坡体的类型进行数据预处理,共整理出72个滑坡多边形数据[33-38]

3.1.3 环境因子数据

依据研究区的环境特点与前人已有研究成果[33-38],采用坡度、坡向、高程、平面曲率、剖面曲率、与道路的距离、与河流的距离、与断层的距离、土地利用和岩性等10个环境因素(表1图3)。其中,数字高程模型数据来源于油房沟流域 1∶50000地形图进行数字化的结果,分辨率为30 m。基于该DEM数据生成了地形环境因子包括高程、坡度、平面曲率、坡向、剖面曲率以描述油房沟流域的地形地貌特征。地形图数字化后具有道路和河流数据,利用ArcGIS软件的缓冲区分析功能获得了与河流的距离和与道路的距离。油房沟流域1∶25000地质图数字化后的结果用于获取该区域的地层分布和断层构造数据。由于岩石类型的构成在相同时期的地层可能不同,那么依据相类似的物质组成和特点,油房沟流域的地质层经过重新组织后被分成3种岩性单元,第1种是粉砂岩、泥岩、薄砂砾岩;第2种是厚石灰岩、板岩;第3种是千枚岩、板岩、薄石灰岩。断层构造对滑坡的作用是通过与断层的距离来表示,利用ArcGIS软件的缓冲区分析功能可得到与断层的距离。油房沟流域的土地利用数据来源于1995—2000年的TM影像的遥感解译结果,主要包括林地、农田、居民区和工业用地以及未利用土地4种类型[39]。为便于空间统计与分析,文中使用30 m当作全部环境因子数据的空间分辨率。
表1 影响因素与数据源[36-39]

Tab. 1 Environmental factors and data sources[36-39]

类别 影响因素 数据源 比例尺
地形地貌 高程 地形图 1∶50000
坡度
坡向
平面曲率
剖面曲率
排水状况 距河流的距离
人类活动 距道路的距离
地质条件 岩性 地质图 1∶25000
距断层线的距离
土地利用 土地利用类型 TM影像
图3 油房沟流域环境因子数据

Fig. 3 Environmental factors in the Youfanggou Basin

3.2 实验设计

本文的实验设计主要包括两个步骤,分别为滑坡正样本原型采样方法的应用以及验证,实验设计流程如图4所示。
图4 实验设计流程图

Fig. 4 Flowchart of the experimental design

在方法的应用中包含两个关键子模块,采集和建模。在采集阶段,首先利用研究区滑坡多边形数据,采用频率曲线方法构建原型库;然后结合环境因子进行地理环境相似度的计算,获得研究区的正样本可信度与负样本可信度空间分布图;采用互斥可信度阈值设置方法设置阈值,采集具有可信度的训练样本(正样本和负样本)集。为了能够降低实验中偶然现象出现的概率,以体现同一可信度值域下基于机器学习的滑坡易发性评价的普遍规律,通常需要进行多次抽样实验,一般设置抽样次数为20次即在相同可信度阈值下重复抽样20次,获取同一滑坡和非滑坡样本可信度值域下20组具有不同可信度的训练样本(正样本和负样本)数据集,每个可信度值域下分别选择50个、100个、150个和200个正样本与相同数量的负样本。在建模阶段,首先把每组训练样本(正样本和负样本)集作为原始数据集,然后采用留出法的验证方式,将原始样本数据采用阈值(常用的阈值参数中建模和验证的比例为70%∶30%)拆分成2组互斥的子集,然后本文选取逻辑回归、随机森林和支持向量机模型进行滑坡易发性的预测和评价,最后利用验证样本对评价结果进行评价和分析。
在方法验证步骤中,主要是将本文所提出的方法应用在基于机器学习的滑坡易发性评价中,探究样本可信度与基于机器学习的滑坡易发性评价效果之间的关系,并与已有代表性的采样方法进行对比,从而检验本文所提采样方法的效果。本文选择常用和具有代表性的定量统计指标精度(Accuracy)和接收者操作特征曲线下面积(Area under the Receiver Operating Characteristic Curve, AUC),判断滑坡易发性评价的效果,基于评价结果进行采用定性和定量相结合的方法对比分析滑坡易发性空间分布图[40]

3.2.1 机器学习模型

本文采用支持向量机、逻辑回归和随机森林3种代表性机器学习方法作为推理模型计算滑坡易发性[9,13,27]。支持向量机(Support Vector Machine, SVM)利用正样本和负样本建立线性回归函数,从而寻找最优分类超平面使正样本和负样本正确区分,进而构建决策函数以计算滑坡易发性。逻辑回归(Logistic Regression, LR)通过分析正样本和负样本与环境因子之间的关系,进而构建广义线性回归分析模型,从而计算滑坡易发性。随机森林(Random Forest, RF)是通过从原始训练样本集(正样本和负样本集)中有放回的随机抽取一定的样本生成新的训练样本子集(正样本和负样本集),然后随机选取特征,创建多个完全独立的决策树分类器,输出滑坡易发性。

3.2.2 验证与评价

为验证本文所提出方法的有效性,利用Accuracy和AUC作为评价指标,分析样本可信度与滑坡易发性评价精度之间的关系,进而对比有可信度与无可信度样本下的效果。无可信度正、负样本方法采用两种组合:① 实体法采集正样本和正样本驱动法采集负样本,即在研究区擦除(Erase)已有滑坡多边形数据后随机采集样本可得负样本;② 邻域法和正样本驱动法,具体步骤为在滑坡缓冲区内随机采集滑坡样本,而负样本为研究区擦除滑坡缓冲区和滑坡多边形后剩余区域随机采集,本文滑坡邻域的缓冲区阈值为100 m。因此,将3种滑坡样本采集方法各重复抽样20次,获得同一滑坡样本采集方法下20组不同的训练样本集,分别构建基于LR、RF和SVM的滑坡易发性预测模型,从而比较本文方法与已有采样方法下机器学习模型的效果。

4 研究结果

4.1 正样本可信度与滑坡易发性评价精度的关系分析

分析3种机器学习模型下验证Accuracy和AUC值的箱线图(图5)可得,当正样本和负样本数量均为50时,LR、RF和SVM模型具有相近的变化规律,当负样本可信度为定值时,随着正样本可信度的增大,3种机器学习的验证Accuracy和AUC值表现先降低后增大的趋势。总体表现出波动上升的趋势,而验证Accuracy和AUC值的变化逐渐降低。当负样本可信度逐渐增加时,该变化规律和趋势表现突出。
图5 逻辑回归、随机森林和支持向量机模型下正样本可信度的验证Accuracy和AUC比较与分析

Fig. 5 Comparison of the test accuracy and AUC for the reliability of positive samples based on the LR, RF and SVM models

当正样本和负样本可信度均为> 0.5时,LR、RF和SVM模型的验证Accuracy和AUC最小值分别为76.6%和0.81;当正样本可信度从> 0.6到> 0.7时,LR、RF和SVM模型的验证Accuracy和AUC值略有下降,3种模型的验证Accuracy和AUC值均分别在63.3%和0.75以上;当正样本可信度为> 0.8时,3种模型的验证Accuracy和AUC值分别在76.6%和0.83以上,呈现出慢慢提高的规律;随着正样本可信度的进一步增加,3种机器学习模型的验证Accuracy和AUC值都较大,都表现出提高的变化规律并最终处于平稳状态。当正样本可信度为> 0.9时,LR模型的验证Accuracy最低值为80.0%,RF和SVM模型的验证Accuracy均在83.3%以上,3种机器学习模型的验证AUC值均在0.84以上。
当负样本可信度由> 0.5逐渐增加时,3种机器学习模型的验证Accuracy和AUC值均逐渐增加,且变异降低;随着正样本可信度的持续增加,总体依然表现出波动上升的趋势,而验证精度的变化逐渐降低。当负样本可信度为> 0.6时,LR、RF和SVM模型验证Accuracy和AUC值均在76.6%和0.87之上;当负样本可信度增加为> 0.7时,LR、RF和SVM模型验证Accuracy和AUC值均在90.0%和0.89以上;当负样本可信度进一步增加为> 0.8和> 0.9时,LR、RF和SVM模型验证Accuracy和AUC值均在90.0%和0.99之上。

4.2 负样本可信度与滑坡易发性评价精度的关系分析

不同机器学习模型下,甘肃省油房沟流域负样本可信度与验证Accuracy和AUC的变化盒图(图6)分析发现,当正样本和负样本数量均为50时,LR、RF和SVM模型具有相近的变化规律;当正样本可信度为定值时,随着负样本可信度的增大,3种机器学习模型的验证Accuracy和AUC值呈现出上升的变化趋势,验证精度的变异逐渐降低;当正样本可信度逐渐增加时,该变化趋势更为突出。
图6 逻辑回归、随机森林和支持向量机模型下负样本的验证Accuracy和AUC比较与分析

Fig. 6 Comparison of the test accuracy and AUC for the reliability of negative samples based on the LR, RF and SVM models

当正样本和负样本可信度均为> 0.5时,LR、RF和SVM模型的验证Accuracy和AUC最小值分别为76.6%和0.81以上;当负样本可信度从> 0.5到> 0.7时,LR、RF和SVM模型验证Accuracy和AUC值明显上升,LR模型的验证Accuracy和AUC值均在76.6%和0.94以上;RF模型的验证Accuracy和AUC最低值为90.0%和0.96;SVM模型的验证Accuracy和AUC最小值分别为83.3%和0.93;当负样本可信度为> 0.8时,3种模型的验证Accuracy和AUC值分别在90.0%和0.97以上,呈现快速上升的趋势;随着负样本可信度的进一步增加,3种机器学习模型的验证Accuracy和AUC均较大,均表现出持续提高的变化规律并最终趋于平稳。当负样本可信度为> 0.9时,SVM模型的验证Accuracy最低值为96.6%,RF和SVM模型的验证Accuracy值均稳定为100.0%,3种机器学习模型的验证AUC值均为1。
当正样本可信度由> 0.5逐渐增加时,随着负样本可信度的增加,3种模型的验证Accuracy和AUC值均逐渐增加,且变异降低;总体依然呈现波动上升的趋势,验证Accuracy和AUC值的变异逐渐降低。当负样本可信度为> 0.6时,LR、RF和SVM模型验证Accuracy和AUC值均在73.3%和0.75之上;当负样本可信度增加为> 0.7时,LR、RF和SVM模型验证Accuracy和AUC均在63.3%和0.82之上;当负样本可信度进一步增加为> 0.8和> 0.9时,LR、RF和SVM模型验证Accuracy和AUC值均在76.6%和0.80之上。

4.3 样本可信度与滑坡易发性空间分布图的关系分析

为了便于总体分析样本可信度阈值与滑坡易发性空间模式变化的规律,在甘肃省油房沟流域选取一个案例进行探讨。本文采用常用的自然断点法,将油房沟流域划分为5个易发性等级,非常高、高、中、低和非常低。
图7~图9给出了不同滑坡正样本和负样本可信度值域下基于3种机器学习模型的滑坡易发性空间分布图。当滑坡样本的可信度从> 0.5到> 0.6时,3个机器学习模型下推测的非常高和高易发性区域主要分布在山体斜坡面上,相对高差较大的南部区域;非常低和低易发性的区域主要分布在海拔高、相对高差小、地势平坦和海拔较高的北部山区。从空间分布模式特点来判断,滑坡易发性存在较为明显的连续性和渐变性,向附近地理空间也有一定程度的扩张,此外部分滑坡多边形内部的点会位于预测的滑坡易发性中等区域。随着滑坡样本可信度持续提高(从> 0.7到> 0.9时),滑坡易发性非常高和高的区域继续向北扩张,油房沟流域的中部和南部区域基本上均被预测成高和非常高的易发性值,所有滑坡多边形都落在滑坡易发性高和非常高的区域中,但是LR和SVM模型容易过高估计滑坡易发性的现象,滑坡易发性的空间变异特征不明显。RF模型在不同可信度值域下均较优于LR和SVM模型。
图7 基于逻辑回归模型和可信度采样法的滑坡易发性空间分布

Fig. 7 Landslide susceptibility map using the LR model based on reliability-based sampling

图8 基于随机森林模型和可信度采样法的滑坡易发性空间分布

Fig. 8 Landslide susceptibility map using the RF model based on reliability-based sampling

图9 基于支持向量机模型和可信度采样法的滑坡易发性空间分布

Fig. 9 Landslide susceptibility map using the SVM model based on reliability-based sampling

5 讨论

5.1 样本可信度与样本数量对于评价效果的影响

图10给出了油房沟流域应用LR、RF和SVM模型在不同可信度阈值下验证AUC值随正样本和负样本数量的变化。当正样本和负样本可信度阈值均为> 0.5时,随着正样本和负样本数量的增加,LR和SVM模型呈现出先略微下降,后快速上升直至趋于平稳的变化趋势;RF模型则是先快速上升,后略微下降直至趋于平稳的变化趋势。当正样本和负样本可信度阈值提高时,3种模型的验证AUC值也波动提高最终趋于平稳状态。
图10 逻辑回归、随机森林和支持向量机模型下验证AUC值随正样本和负样本数量的变化

Fig. 10 Variations in the test accuracy and AUC based on the LR, RF and SVM models under different numbers of landslide/nonlandslide samples

当正样本和负样本数量均为50时,LR、RF和SVM模型的验证AUC值均为0.81以上。当正样本和负样本数量均为100时,LR和SVM模型下验证AUC值均为0.81以上;RF模型下验证AUC值均为0.94以上;当正样本和负样本数量均为150时,LR和SVM模型下验证AUC值均为0.87以上;RF模型下验证AUC值均为0.92以上;当正样本和负样本数量均为200时,LR、RF和SVM模型下验证AUC值均为0.85以上。当正样本和负样本可信度阈值提高时(从> 0.5到> 0.7时),且随着样本数量的增加,LR、RF和SVM模型下验证AUC值均为0.89以上,呈现波动变化的特点,变异逐渐降低。当正样本和负样本可信度阈值进一步从> 0.8提高到> 0.9时,3种机器学习模型的验证Accuracy和AUC值都很高,LR、SVM与RF模型的验证AUC值甚至均为1,且都呈现缓慢上升的趋势并最终达到平稳状态。滑坡危险度空间分布特征可以看出,总体趋势一致。

5.2 本文方法与其他样本采集方法的对比分析

图11为基于有可信度和无可信度样本下3种机器学习模型得到的验证Accuracy和AUC值,其中本文方法中正样本和负可信度的阈值均为> 0.5。分析可得,在不同数量、不同模型下本文方法预测效果更好。
图11 逻辑回归、随机森林和支持向量机模型下不同采样方法和不同数量验证Accuracy和AUC比较与分析

Fig. 11 Comparison of the test accuracy and AUC for different sampling methods and quantities based on the LR, RF and SVM models

在正样本和负样本数量均为50时,实体法的LR、RF和SVM验证Accuracy和AUC值较低,且变异较大;LR、RF和SVM验证Accuracy和AUC值分别分布于50.0%~86.6%和0.49~0.93之间、56.6%~86.6%和0.65~0.87之间、60.0%~86.6%和0.59~0.89之间。邻域法的LR、RF和SVM验证Accuracy和AUC值也较低,且变异也较大;LR、RF和SVM验证Accuracy和AUC值分别分布于53.3%~76.6%和0.63~0.89之间、56.6%~76.6%和0.67~0.89之间、56.6%~83.3%和0.68~0.84之间。本文方法的LR、RF和SVM验证Accuracy和AUC值较高,且变异较低;LR、RF和SVM的验证Accuracy和AUC值分别分布于76.6%~100.0%和0.80~1.00之间、80.0%~96.6%和0.88~1.00之间、80.0%~96.6%和0.85~1.00之间。

5.3 样本可信度阈值设置方法与滑坡易发性评价效果的关系

本文提出的互斥可信度阈值设置方法能够逐步提高整体样本的可信度,从而提高滑坡易发性的评价精度。随着正样本可信度的上升,由于采集得到的正样本中含有与已有原型地理环境因子非常相似的点越来越多,因此正样本可反映滑坡多边形内部的代表性地理环境特征;而随着负样本可信度的上升,负样本中含有与已有正样本原型地理环境因子极不相似的点也越来越多。正样本和负样本在环境特征空间中的差异越来越大,表现分离趋势,那么机器学习模型更容易区分,因此在这样的正样本和负样本下,验证精度都较大。但是在特征空间中,正样本和负样本分布不均衡,将致使机器学习模型的分类线或分类面向正样本和负样本处转变,即在部分评价结果中出现非常高和非常低易发性区域增大的情况,这样增加了滑坡易发性图能够识别正样本和负样本的概率,与此同时,滑坡易发性空间分布表现特征变异较低,多样性变化减少的特点。

6 结论与展望

通过对现有训练样本采样方法均未度量正样本可信度使得采集的训练样本可靠性无法得到保证,制约了机器学习的区域滑坡易发性评价效果这一问题进行研究,提出一种基于滑坡正样本原型的方法对正样本可信度进行度量。本文以LR、SVM和RF为推测模型,选择甘肃省油坊沟流域为研究区,在本文所设计PBS具有可信度的正、负样本和无可信度的正、负样本分别对油坊沟流域构建基于3种机器学习模型的滑坡易发性评价,推测油坊沟流域滑坡易发性空间分布,以验证本文所设计方法的有效性。研究发现,当正样本和负样本可信度及数量逐渐增加时,基于3种机器学习模型的滑坡易发性的评价精度增加,均能较好地模拟滑坡易发性空间分布特征;当负样本可信度阈值为定值时,正样本可信度与评价效果均呈现波动上升的趋势;在负样本可信度阈值逐渐增加的情况下,正样本可信度与制图精度波动上升的趋势更加明显;当正样本可信度为定值时,负样本可信度与评价效果呈现显著正相关关系,当正样本可信度增加时,负样本可信度与评价效果正相关关系更加显著。与已有代表性采样方法进行对比实验,结果表明,本文所设计PBS方法在不同样本数量的验证Accuracy和AUC值分别至少提高了14.7%和14%,表明本文所提PBS是一种有效的采样方法。
本文的创新和贡献是基于滑坡多边形及地理环境因子数据,提出了利用频数采样法提取滑坡正样本原型的方法,设计了环境因子值向量表达原型的方式,提出了与滑坡正样本原型的地理环境相似度度量正样本可信度的方法,设计了互斥可信度阈值设置与正样本采集方法,实现了对正样本可信度的直观定量认识。
本文不足与展望为:① 环境因子的选择方法主要依据某一个研究区的环境特征和已有研究成果进行挑选,存在主观性;② 在建模过程中仅考虑正样本与负样本属于数据平衡的情况,即采用相同数量的正、负样本,未考虑数据不平衡的情况;③ 论文仅采用3种机器学习模型,由于3种机器学习模型自身特点的不同,在推测制图过程中出现预测结果空间变异不一致的情况,如何构建鲁棒性好的机器学习模型需要进一步探索;④ 在与已有采样方法对比方面,本文仅选取了两个代表性指标与两个代表性采样方法进行验证,该方法仍然需要在不同研究领域(如洪涝易发性、森林火险危险性和疾病风险性等)进行应用与检验。
[1]
Reichenbach P, Rossi M, Malamud B D, et al. A review of statistically-based landslide susceptibility models. Earth-Science Reviews, 2018, 180: 60-91.

[2]
Shen Zexi, Zhang Qiang, Wu Wenhuan, et al. Spatial pattern and attribution analysis of the regions with frequent geological disasters in the Tibetan Plateau and Hengduan Mountains. Acta Geographica Sinica, 2022, 77(5): 1211-1224.

DOI

[申泽西, 张强, 吴文欢, 等. 青藏高原及横断山区地质灾害易发区空间格局及驱动因子. 地理学报, 2022, 77(5): 1211-1224.]

DOI

[3]
Zhao Z G, Xu Z Y, Hu C L, et al. Geographically weighted neural network considering spatial heterogeneity for landslide susceptibility mapping: A case study of Yichang city, China. CATENA, 2024, 234: 107590. DOI: 10.1016/j.catena.2023.107590.

[4]
Zhang Xiguo, Zhou Xiongdong, Xu Mengzhen, et al. Distribution of hydropower development suitability in Xizang in the face of geological hazard susceptibility. Acta Geographica Sinica, 2022, 77(7): 1603-1614.

DOI

[张玺国, 周雄冬, 徐梦珍, 等. 西藏地质灾害易发性及对水能开发适宜度影响. 地理学报, 2022, 77(7): 1603-1614.]

DOI

[5]
Merghadi A, Yunus A P, Dou J, et al. Machine learning methods for landslide susceptibility studies: A comparative overview of algorithm performance. Earth-Science Reviews, 2020, 207: 103225. DOI: 10.1016/j.earscirev.2020.103225.

[6]
Hu Sheng, Qiu Haijun, Wang Ninglian, et al. The influence of terrain on loess landslides in Loess Plateau. Acta Geographica Sinica, 2021, 76(11): 2697-2709.

DOI

[胡胜, 邱海军, 王宁练, 等. 地形对黄土高原滑坡的影响. 地理学报, 2021, 76(11): 2697-2709.]

DOI

[7]
Wu Xueling, Yang Jingyu, Niu Ruiqing. A landslide susceptibility assessment method using SMOTE and convolutional neural network. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1223-1232.

[武雪玲, 杨经宇, 牛瑞卿. 一种结合SMOTE和卷积神经网络的滑坡易发性评价方法. 武汉大学学报(信息科学版), 2020, 45(8): 1223-1232.]

[8]
Zeng T R, Wu L Y, Peduto D, et al. Ensemble learning framework for landslide susceptibility mapping: Different basic classifier and ensemble strategy. Geoscience Frontiers, 2023, 14: 101645. DOI: 10.1016/j.gsf.2023.101645.

[9]
Du Yueyue, Peng Jian, Zhao Shiquan, et al. Ecological risk assessment of landslide disasters in mountainous areas of Southwest China: A case study in Dali Bai autonomous prefecture. Acta Geographica Sinica, 2016, 71(9): 1544-1561.

DOI

[杜悦悦, 彭建, 赵士权, 等. 西南山地滑坡灾害生态风险评价: 以大理白族自治州为例. 地理学报, 2016, 71(9): 1544-1561.]

DOI

[10]
Zeng Ying, Zhang Yingbin, Zhang Zhongyuan, et al. Landslide susceptibility evaluation based on coupled X-multilayer perceptron model: A case study of Songtao autonomous county of Guizhou province, China. Mountain Research, 2023, 41(2): 280-294.

[曾营, 张迎宾, 张钟远, 等. 基于X-多层感知器耦合模型的滑坡易发性评价: 以贵州省松桃自治县为例. 山地学报, 2023, 41(2): 280-294.]

[11]
Zhang J Y, Ma X L, Zhang J L, et al. Insights into geospatial heterogeneity of landslide susceptibility based on the SHAP-XGBoost model. Journal of Environmental Management, 2023, 332: 117357. DOI: 10.1016/j.jenvman.2023.117357.

[12]
Chen Tao, Zhong Ziying, Niu Ruiqing, et al. Mapping landslide susceptibility based on deep belief network. Geomatics and Information Science of Wuhan University, 2020, 45(11): 1809-1817.

[陈涛, 钟子颖, 牛瑞卿, 等. 利用深度信念网络进行滑坡易发性评价. 武汉大学学报(信息科学版), 2020, 45(11): 1809-1817.]

[13]
Bao Shuai, Liu Jiping, Wang Liang. Landslide susceptibility evaluation based on combined DBSCAN cluster sampling and SVM classification. Technology for Earthquake Disaster Prevention, 2021, 16(4): 625-636.

[鲍帅, 刘纪平, 王亮. 联合DBSCAN聚类采样和SVM分类的滑坡易发性评价. 震灾防御技术, 2021, 16(4): 625-636.]

[14]
Huang Faming, Yin Kunlong, Jiang Shuihua, et al. Landslide susceptibility assessment based on clustering analysis and support vector machine. Chinese Journal of Rock Mechanics and Engineering, 2018, 37(1): 156-167.

[黄发明, 殷坤龙, 蒋水华, 等. 基于聚类分析和支持向量机的滑坡易发性评价. 岩石力学与工程学报, 2018, 37(1): 156-167.]

[15]
Zhou Chao, Gan Lulu, Wang Yue, et al. Landslide susceptibility prediction based on non-landslide samples selection and heterogeneous ensemble machine learning. Journal of Geo-information Science, 2023, 25(8): 1570-1585.

[周超, 甘露露, 王悦, 等. 综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模. 地球信息科学学报, 2023, 25(8): 1570-1585.]

DOI

[16]
Hong H Y, Wang D S, Zhu A X, et al. Landslide susceptibility mapping based on the reliability of landslide and non-landslide data. Expert Systems with Applications, 2024, 243: 122933. DOI: 10.1016/j.eswa.2023.122933.

[17]
Chang Z L, Huang J S, Huang F M, et al. Uncertainty analysis of non-landslide sample selection in landslide susceptibility prediction using slope unit-based machine learning models. Gondwana Research, 2023, 117: 307-320.

[18]
Tang Chuan, Zhu Jing. Regional distribution and hazard zoning of landslides and debris flows in the mtodle-lowerreaches of the Lancang river. Acta Geographica Sinica, 1999, 54(Suppl.1): 84-92.

DOI

[唐川, 朱静. 澜沧江中下游滑坡泥石流分布规律与危险区划. 地理学报, 1999, 54(Suppl.1): 84-92.]

DOI

[19]
Dou J, Yunus A P, Merghadi A, et al. Different sampling strategies for predicting landslide susceptibilities are deemed less consequential with deep learning. Science of the Total Environment, 2020, 720: 137320. DOI: 10.1016/j.scitotenv.2020.137320.

[20]
Süzen M L, Doyuran V. Data driven bivariate landslide susceptibility assessment using geographical information systems: A method and application to Asarsuyu catchment, Turkey. Engineering Geology, 2004, 71(3): 303-321.

[21]
Wang L J, Sawada K, Moriguchi S. Landslide susceptibility analysis with logistic regression model based on FCM sampling strategy. Computers & Geosciences, 2013, 57(4): 81-92.

[22]
Zhou Xiaoting, Huang Faming, Wu Weicheng, et al. Regional landslide susceptibility prediction based on negative sample selected by coupling information value method. Advanced Engineering Sciences, 2022, 54(3): 25-35.

[周晓亭, 黄发明, 吴伟成, 等. 基于耦合信息量法选择负样本的区域滑坡易发性预测. 工程科学与技术, 2022, 54(3): 25-35.]

[23]
Pradhan B, Lee S, Buchroithner M F. A GIS-based back-propagation neural network model and its cross-application and validation for landslide susceptibility analyses. Computers, Environment and Urban Systems, 2010, 34(3): 216-235.

[24]
Fang Miao, Zhang Jinlong, Xu Zhen. Landslide susceptibility zoning study in Lanzhou city based on GIS and logistic regression model. Remote Sensing Technology and Application, 2011, 26(6): 845-854.

[方苗, 张金龙, 徐瑱. 基于GIS和Logistic回归模型的兰州市滑坡灾害敏感性区划研究. 遥感技术与应用, 2011, 26(6): 845-854.]

[25]
Xiao C C, Tian Y, Shi W Z, et al. A new method of pseudo-absence data generation in landslide susceptibility mapping with a case study of Shenzhen. Science China Technological Sciences, 2010, 53(1): 75-84.

[26]
Miao Yamin, Zhu Axing, Yang Lin, et al. A method for quantifying the reliability of landslide pseudo-absence samples based on geographic environmental similarity. Progress in Geography, 2016, 35(7): 860-869.

DOI

[缪亚敏, 朱阿兴, 杨琳, 等. 一种基于地理环境相似度的滑坡负样本可信度度量方法. 地理科学进展, 2016, 35(7): 860-869.]

DOI

[27]
Zhu A X, Miao Y M, Liu J Z, et al. A similarity-based approach to sampling absence data for landslide susceptibility mapping using data-driven methods. CATENA, 2019, 183: 104188. DOI: 10.1016/j.catena.2019.104188.

[28]
Rosch E H. Natural categories. Cognitive Psychology, 1973, 4(3): 328-350.

[29]
Larkoff G. Women,Fire and Dangerous Things:What Categories Reveal about the Mind. Chicago: University of Chicago Press, 1987.

[30]
Qi F, Zhu A X, Harrower M, et al. Fuzzy soil mapping based on prototype category theory. Geoderma, 2006, 136(3/4): 774-787.

[31]
Miao Yamin. A new approach to generating absence samples for landslide susceptibility assessment[D]. Nanjing: Nanjing Normal University, 2016.

[缪亚敏. 滑坡敏感性评价中的负样本采样方法研究[D]. 南京: 南京师范大学, 2016.]

[32]
Freedman D, Diaconis P. On the histogram as a density estimator: L2 theory. Probability Theory & Related Fields, 1981, 57(4): 453-476.

[33]
Miao Yamin, Zhu Axing, Yang Lin, et al. A new method of pseudo absence data generation in landslide susceptibility mapping. Geography and Geo-information Science, 2016, 32(4): 61-67.

[缪亚敏, 朱阿兴, 杨琳, 等. 滑坡敏感性制图中一种新型的负样本采样方法. 地理与地理信息科学, 2016, 32(4): 61-67.]

[34]
Miao Yamin, Zhu Axing, Yang Lin, et al. Sensitivity of BCS for sampling landslide absence data in landslide susceptibility assessment. Mountain Research, 2016, 34(4): 432-441.

[缪亚敏, 朱阿兴, 杨琳, 等. 滑坡敏感性评价对BCS负样本采样的敏感性. 山地学报, 2016, 34(4): 432-441.]

[35]
Miao Yamin, Zhu Axing, Yang Lin. Study on evaluation indices validity of landslide susceptibility mapping precision. Journal of Natural Disasters, 2017, 26(2): 115-122.

[缪亚敏, 朱阿兴, 杨琳. 滑坡危险度制图精度评价指标的有效性研究. 自然灾害学报, 2017, 26(2): 115-122.]

[36]
Chen Wenwu, Zhao Zhifu, Liu Gao, et al. Research on Engineering Geological Problems of Lanzhou Haikou Expressway Gansu Section[D]. Lanzhou: Lanzhou University Press, 2006: 19-22.

[谌文武, 赵志福, 刘高, 等. 兰州—海口高速公路甘肃段工程地质问题研究. 兰州: 兰州大学出版社, 2006: 19-22.]

[37]
Chen Yaoqian. Geological Hazard Investigation and Zoning Report of Wudu County, Gansu Province. Gansu Provincial Geological Environment Monitoring Station, 2001.

[陈耀乾. 甘肃省武都县地质灾害调查与区划报告. 甘肃省地质环境监测总站, 2001.]

[38]
Dong Kangjia. Geological hazard investigation and zoning report of Zhouqu county. Gansu Province. Gansu Provincial Geological Environment Monitoring Station, 2003.

[董抗甲. 甘肃省舟曲县地质灾害调查与区划报告. 甘肃省地质环境监测总站, 2003.]

[39]
Liu J Y, Liu M L, Zhuang D F, et al. Study on spatial pattern of land-use change in China during 1995-2000. Science in China Series D: Earth Sciences, 2003, 46(4): 373-384.

[40]
Tsangaratos P, Ilia I. Comparison of a logistic regression and Naïve Bayes classifier in landslide susceptibility assessments: The influence of models complexity and training dataset size. CATENA, 2016, 145: 164-179.

文章导航

/