基于遥感和社交媒体数据的城市洪涝灾害监测

在全球气候变化下,城市极端暴雨内涝灾害频发,已成为制约城市健康稳定发展的重要因素[1]。由于城市建筑和人口密集、关键基础设施薄弱[2],城市洪涝灾害事件往往会造成极大的经济损失、人员伤亡与社会影响。对洪涝灾害进行快速监测,并做出有效响应在灾害应急管理中至关重要。合成孔径雷达(SAR)使用长波段电磁波,不受云、雨、雾的影响,具有全天时、全天候获取影像数据的优势[3],可用于城市洪涝灾害监测。

利用SAR影像中水体与非水体地物的后向散射强度的差异可提取洪水淹没信息。SAR洪水检测方法分主要分为阈值法、机器学习、变化检测法和干涉测量法等[4]。阈值法通过特定阈值提取水体,使用便捷,但受影像直方图双峰分布影响较大。机器学习通过提取先验样本,借助样本的概率统计信息制定分类规则,利用不同分类器模型进行洪涝信息提取,提取效果优于阈值法,但对样本的依赖程度高。变化检测法采用洪水发生前与洪水期间的SAR影像生成差值或比值图像,进一步结合阈值分割、分类器法等提取洪涝信息。此方法可直接去除永久性水体的影响,但斑点噪声的影响、理想参考影像的选取都是其限制因素。干涉测量方法需要另外结合SAR影像的相位信息,根据相干性值的高低区分淹没区与非淹没区。该方法在建筑密集区具有一定效果,但需要处理相位信息,时间成本比较高。

目前,基于SAR数据的洪涝监测多集中于自然流域的河流和湖泊。谷鑫志等[5]提出基于GF-3影像的阈值分割与马尔可夫随机场(MRF)相结合的自动化水体信息提取方法,在湖南省东北部区域水体提取精度达到85% 以上;Markert等[6]基于Sentinel-1影像和谷歌地球引擎(GEE)进行水体提取,发现阈值法中Edge Otsu优于 Bmax Otsu,并使用Edge Otsu对湄公河下游洪泛平原2019年夏季洪水进行提取分析。由于城市地表复杂的后向散射机制与建筑类型和高度、植被面积,以及道路拓扑结构有关,利用SAR数据对城市地区的洪水探测具有挑战性。当前只有少量研究探索SAR数据在城市地区洪涝淹没监测中的应用。城市地区主要依赖高分辨率SAR影像,如TerraSAR-X,RADARSAT-2;其次是中分辨率SAR影像,如GF-3、Sentinel-1等。但仅利用SAR后向散射强度在城市洪涝监测中获取的信息是有限的,还需要借助相关辅助数据。Li等[7]将多时相高分辨率TerraSAR-X相干性结合强度信息,Tanguy等[8]将RADARSAT-2数据与水力数据(汛期)相结合,对城市洪涝进行淹没范围提取,都取得了良好的效果。

由此可见,辅助信息的使用有助于SAR数据对城市地区的洪水监测。常用的辅助信息有土地利用数据、社交媒体数据、水文数据等。在面向城市洪涝的快速提取中,需要考虑辅助数据的处理时间成本。社交媒体数据作为灾害识别的新型数据源,通常以文本或视频形式发布,处理速度快,是城市洪涝监测中极具应用潜力的数据。Li等[9]利用卷积神经网络对从微博中抓取的数据进行分类训练,并将模型运用于深圳和武汉的暴雨洪涝事件监测。但该数据受人口分布、经济水平等影响比较大,具有较强的空间异质性。社交媒体数据与遥感数据的结合,可进一步提高洪涝监测的时效性。邢子瑶等[10]将SAR影像与VGI(volunteered geographic information)数据、微博数据结合进行洪涝范围监测。但是目前在城市洪涝监测研究中没有充分发挥它们的数据优势。

本文以郑州市“7·20”特大暴雨洪涝为例,利用GF-3 SAR影像,辅以社交媒体数据,结合阈值分割法和机器学习方法,进行城市洪涝淹没信息快速提取,探索SAR影像与社交媒体数据在城市洪涝灾害监测中的应用潜力。

1 研究区概况与数据处理

1.1 研究区概况

郑州市是国家中心城市,河南省省会。郑州市位于河南省北部,处于黄河中下游和伏牛山脉向黄淮平原过渡交接地带,研究区地形如图1所示。2021年7月20日, 郑州市突发特大暴雨,贾鲁河、双洎河、颍河等3条主要河流均出现超水位洪水,市区出现严重内涝。此次暴雨导致城市内涝、河流洪水、山洪滑坡等多灾并发,造成重大人员伤亡和财产损失[11]。

1.2 数据处理

本文主要采用覆盖郑州中心城区的GF-3 SAR影像及Sentinel-2A影像,影像信息如表1所示。GF-3 SAR包含2021年7月15日的两景灾前影像和2021年7月20日的两景灾中影像。GF-3 FSII影像预处理工作主要包括滤波处理、地形校正、影像裁剪、影像配准。GF-3 L2 FSII影像为经过几何校正和辐射校正的产品,不需要再进行相关处理。由于SAR图像中存在大量随机分布的相干斑噪声,选择Frost滤波器进行滤波处理,Frost滤波可在减少噪声的同时保持图像的边缘与细节。GF-3 SAR属于斜距投影,需对影像进行地形校正以减弱几何畸变的影响,本文采用GMTED2010 DEM 进行地形校正。此外,采用2021年6月6日Sentinel-2A L2A级影像,提取空间分辨率为10 m的蓝、绿、红、近红外4个光谱波段。该级别产品不需要经过辐射定标与大气校正。

2 研究方法

针对预处理后的 GF-3 SAR 影像,分别采用阈值法和机器学习方法进行郑州市中心城区洪涝信息提取。阈值法包括同极化HH Otsu、交叉极化HV Otsu和SAR水体指数法;机器学习方法采用随机森林。对比两种方法的水体提取精度,选择提取精度较高的灾前灾中水体提取结果,通过空间叠加分析获取洪涝淹没空间分布图,并与基于社交媒体数据获取的积水点结合,实现对郑州市中心城区的洪涝灾害监测。

2.1 阈值分割法

Otsu阈值法不需要任何先验知识,且不需要参数设置,只根据图像灰度直方图进行分割阈值选取。Otsu阈值法根据图像的灰度特性将图像分成背景和前景两部分,计算两者的类间方差,当类间方差最大时,完成对图像背景和前景的分割。该算法可求出水体和非水体两类地物类间方差最大值[12],从而得到分割水体和非水体的全局阈值。Otsu算法假设水体的像元值为[p1 ,p2 , … , pn],非水体的像元值为[pn+1 , pn+2 ,… , pm],pn 表示分割水体与非水体的阈值,其类间方差为

式中:W1、W2分别为水体和非水体像素占整张图像的比例;M1、M2分别为水体和非水体像元的平均值;M为影像的像元平均值。通过不断迭代计算得到类间方差σ最大时的阈值pn。

本文利用Otsu阈值法分别提取灾前、灾中的GF-3 HH和GH-3 HV影像的水体与非水体分割阈值。

2.1.2 水体指数法

贾诗超等[13]提出的基于Sentinel-1双极化数据的SDWI水体信息提取方法的公式为

式中:KSDWI为水体指数;HH和HV极化影像相乘,乘以10并取其对数值得到合成影像,以此扩大水体与非水体地物之间的差异,便于它们的分割;a=8为水体与非水体直方图的波谷值;当KSDWI大于0时为水体,小于0时为非水体。

由于不同SAR影像水体与非水体直方图的波谷值可能存在差异,本文在郑州市通过波段计算的合成影像中选取常庄水库区域作为SDWI模型改进的试验区,如图2所示,由合成影像直方图可知双峰波谷在8.7左右。根据Otsu阈值法原理,当选取8.7作为SDWI模型的参数时,水体提取的效果较好。借鉴SDWI水体信息提取方法,改进后的GF-3水体指数GFWI公式为

2.2 随机森林

随机森林通过构造不同的训练集增加分类模型间的差异从而提高组合分类模型的外推预测能力[14]。随机森林基本思想为首先利用Bootstrap抽样从原始训练集抽取n个样本;其次对n个样本分别建立n个决策树模型得到n种分类结果;最后根据n种分类结果对每个记录进行投票表决,决定其最终分类。

样本是机器学习分类的关键输入之一,样本的数量、准确性和纯度都会影响最终的分类结果[15]。本文利用ENVI 5.6的Layer Stacking工具将水体指数影像、HH和HV极化影像进行波段合成,得到7月15日和7月20日的三波段合成影像。选取水体和非水体(建筑、道路)3类样本执行随机森林分类,以提取水体信息。

2.3 水体提取精度验证

本文参照沈兰芝等[16]的水体提取精度验证方法。选取研究区2021年6月6日的Sentinel-2A影像,对GF-3 SAR影像水体信息提取结果进行精度验证。在Sentinel-2A影像上研究区范围内随机选择200个检验样本,如图3所示,其中水体样本点96个。在Sentinel-2A影像通过目视解译识别样本点的水体/非水体属性,作为水体提取结果精度评价的参考依据。

比较样点在GF-3 SAR影像水体提取结果和Sentinel-2A参考影像的水体/非水体属性,若一致则为正确检验样本(CS),不一致则为错误检验样本(FS)。利用CS与FS计算总体分类精度OA:

2.4 基于社交媒体数据的积水点提取

本文使用的社交媒体数据来源于新浪微博。作为国内用户数量众多的社交媒体平台,新浪微博包含了丰富的语义内容特征和关系特征,可支持发布文本、图片、视频等,并可带有地理位置标签,是灾害研究中社交媒体数据的常用数据源[17]。

本文使用基于Python开发的网络爬虫程序进行社交媒体数据的获取。首先在浏览器中登录微博,获取微博后台中的初始URL(uniform resource locator)并输入程序。在程序中设置需获取的关键词(使用了“暴雨”“洪水”“内涝”“洪涝”等关键词),搜索的时间(2021年7月20至26日)以及搜索的地点(河南省郑州市)。最终生成的数据表中包含有对应网址、用户名、时间、博文内容、点赞数、转发数与评论数等信息。共获取22 860条数据,数据多来自居民发布的微博博文。对获取的数据进行数据清理、模糊融合匹配、去重与人工筛选等操作,得到基于微博发布的积水点数据。另外,基于用户名为郑州交警的微博账号在2021年7月20日至26日发布的关于郑州市区积水点的微博博文,获取微博文本中的积水点位置信息。本文选择将居民与交警微博账号发布的内涝位置信息相结合,获取尽可能全面且准确的灾情信息。交警部门可能关注三环内的重点区域,此部分信息比较可靠。居民关注的空间范围比交警部门关注的范围大,但是可信度可能比交警数据低一些。将微博爬虫数据和郑州交警微博博文积水点数据进行去重,综合得到社交媒体积水点数据,并利用百度地图定位工具获取地理坐标,最后在ArcGIS中进行可视化,结果如图4所示。

3 结果分析与讨论

3.1 基于SAR的水体监测结果分析

利用Otsu阈值法、水体指数法和随机森林分别对2021年7月15日和7月20日郑州市中心城区GF-3 SAR影像进行水体提取,水体提取结果如图5所示,水体提取精度如表2所示。可以看出,Otsu阈值法中交叉极化HV影像提取效果优于同极化HH影像。SAR极化方式的不同会导致接收器接收到回波信号的不同,交叉极化HV相比同极化HH可以显著地增加雷达图像信息。水体指数法在灾前的提取精度与同极化HH提取精度相似,但低于交叉极化HV的提取精度。水体指数法在灾中的提取精度低于交叉极化HV与同极化HH的提取精度。随机森林在灾前灾中的水体提取中精度都最高。相比阈值分割的单特征,本文中随机森林输入了同极化HH、交叉极化HV及水体指数等多个特征,可利用多个决策树进行预测。且随机样本的输入及随机性决策树的构建可以避免过拟合现象的发生,因此其分类精度较高。此外,在3种方法中,灾前影像的水体提取精度均高于灾中影像。

3.1.2 典型区域水体监测结果对比

在研究区范围内选取5个典型区域,用于对比4种方法在水体提取细节方面的差异,如图6所示,其中区域1为尖岗水库区域,区域2为刘江黄河桥南侧区域,区域3为潮河区域,区域4为索须河和贾鲁河交汇区域,区域5为国际会展中心区域。在区域1中,3种方法获取的洪涝淹没范围基本一致,但Otsu阈值法和随机森林的水体提取细节优于水体指数法。区域2分布着大量的水塘,对比发现,水体指数法提取的水塘周围与城市道路淹没面积均小于另外两种方法,且区域2中存在着部分道路错分为水体的现象,这是由于道路与水体在SAR影像上均表现为深色,造成了水体误提取。区域3为分布着内涝点的居民区,Otsu阈值法与随机森林提取的淹没区域明显大于水体指数法的提取结果。由此可以看出,水体指数法在细小水体提取方面存在着不足。

结合精度评价结果,Otsu 阈值法和随机森林提取效果较好,随机森林由于算法的优越性,提取效果优于Otsu阈值法。但是由于Otsu阈值法的阈值并非最优阈值,随机森林存在着一定程度的过拟合现象,3个区域均存在着部分洪涝范围的误提取。在区域4中,Otsu阈值法和水体指数法的提取效果一致,河流提取连续、间断少。但是由于SAR影像噪声的影响,随机森林样本选取受到限制,该区域河流周边淹没范围提取效果不理想。在区域5这3种方法的应用效果均不理想,无法对该区域洪涝淹没范围进行有效提取。Otsu阈值法在该区域基本失效,水体指数法和随机森林可提取到少部分水体,其中后者提取的淹没范围大于前者,这与7月20日研究区遭遇突破历史极值的强降雨有关。强降雨对SAR信号的衰减作用[18]和高层建筑物对SAR信号的散射吸收作用共同造成了该区域SAR影像地表信息缺失。

3.2 SAR与社交媒体综合监测结果分析

本文将基于社交媒体数据的积水点与通过随机森林提取的SAR影像洪涝范围进行空间叠加,得到郑州市中心城区的洪涝监测图如图7所示。从图7中可以明显看出,基于SAR影像提取的洪涝淹没范围集中在城市周边地区;基于社交媒体数据提取的积水点在三环内比较密集,在三环外的分布比较分散。

对SAR遥感监测的洪涝淹没范围进行统计分析可知,相比于7月15日,7月20日郑州市中心城区洪涝淹没面积为51.49 km2,在三环外,洪涝淹没面积为50.81 km2,占总体洪涝淹没范围的98.7%;三环内提取的洪涝淹没面积为0.68 km2,仅占总体的1.3%。由此可知,基于GF-3影像提取的洪涝淹没范围绝大部分位于三环外,特别是大型水体如水库、河流周围的淹没范围比较明显。而在发生大范围内涝的三环以内区域,基于SAR影像提取的洪涝淹没范围较小且较为分散。这表明基于SAR影像的洪涝灾害监测方法适用于城市周边地区大型水体的监测,在城市高密度建成区的洪涝监测效果有限。

通过微博平台共得到225个积水点。积水点主要集中在城市人口与建筑密集的核心区域,特别是三环以内,共分布172个积水点,占积水点总数量的76.4%。在三环外,内涝点比较分散,共分布53个积水点,占积水点总数量的23.6%。三环内存在大量老旧管网,当暴雨来临时,管道内雨水不能及时向河流排泄,降低整体管网行洪能力[19],导致积水点的集中出现。如图8所示,对积水点进行核密度空间分析,可以看出积水点呈现多核空间分布。核密度高值区域相对比较集中,主要处在二环以内,核密度最高值区域出现在一环内,次一级高值区域位于二环东北部以及西南方向。从空间分布上看,积水点主要分布在城市中东部区域,城市西部区域分布较少。这一现象与7月20日当天暴雨中心从郑州市中心城区西部向中东部移动有关[1]。

由上述结果可知,社交媒体数据与SAR影像在城市洪涝淹没监测范围方面形成了明显的优势互补。遥感卫星监测范围大,能够更加真实客观地表征地表信息,一直是灾害监测和应急管理领域的常用手段。但受遥感卫星重返周期的客观限制,在突然且迅速的极端降雨或洪涝灾害发生时,可用的遥感数据源是其应用的限制性因素之一。SAR影像相对于光学影像,虽然不易受天气条件影响,但城市核心区域复杂的地物反射机制会对SAR影像成像造成影响,使得部分地物信息缺失,进而影响该地区的洪涝灾害监测。而基于社交媒体数据的洪涝灾害监测方法依托网络的便捷性,使用低成本、易获取的社交媒体数据,可快速便捷地提取城市内部的洪涝灾害信息,提高洪涝灾情判断的速度。因此在城市洪涝监测中,遥感数据可以与社交媒体数据相互补充,共同完成城市区域洪涝灾害监测。

4 结论

本文使用基于遥感数据和社交媒体数据相结合的洪涝监测方法,将提取精度最优的随机森林所提取的洪涝淹没范围与社交媒体数据提取的洪涝信息相结合,实现“7·20”郑州市中心城区洪涝监测。主要结论如下。

(1)SAR水体总体提取精度从高到低依次为随机森林、Otsu阈值法、水体指数法,但是在一些典型区域分析中,随机森林的提取效果低于其他方法。

(2)基于SAR影像提取的洪涝淹没范围主要集中在三环外的城市边缘地区与大型水体周围,而基于社交媒体数据提取的洪涝信息主要集中在城市人口和建筑密集的三环内,在三环外的分布比较分散。

本文研究成果结合多源数据优势,获取更为全面的监测结果,为城市洪涝灾害治理与应急管理提供了更科学有效的参考。

[1] 刘家宏, 裴羽佳, 梅超, 等. 郑州“7·20”特大暴雨内涝成因及灾害防控[J]. 郑州大学学报(工学版), 2023, 44(2): 38-45.LIU J H, PEI Y J, MEI C, et al. Waterlogging cause and disaster prevention and control of “7·20” torrential rain in Zhengzhou[J]. Journal of Zhengzhou University (Engineering Science), 2023, 44(2): 38-45.

[2] SHI J, CUI L L, TIAN Z. Spatial and temporal distribution and trend in flood and drought disasters in East China[J]. Environmental Research, 2020, 185: 109406.

[3] LIANG J Y, LIU D S. A local thresholding approach to flood water delineation using Sentinel-1 SAR imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 53-62.

[4] 高寒新, 陈波, 孙洪泉, 等. SAR卫星影像洪水检测研究进展及展望[J]. 地球信息科学学报, 2023, 25(10): 1933-1953.GAO H X, CHEN B, SUN H Q, et al. Research progress and prospect of flood detection based on SAR satellite images[J]. Journal of Geo-information Science, 2023, 25(10): 1933-1953.

[5] 谷鑫志, 曾庆伟, 谌华, 等. 高分三号影像水体信息提取[J]. 遥感学报, 2019, 23(3): 555-565.GU X Z, ZENG Q W, SHEN H, et al. Study on water information extraction using domestic GF-3 image[J]. Journal of Remote Sensing, 2019, 23(3): 555-565.

[6] MARKERT K N, MARKERT A M, MAYER T, et al. Comparing Sentinel-1 surface water mapping algorithms and radiometric terrain correction processing in Southeast Asia utilizing Google Earth Engine[J]. Remote Sensing, 2020, 12(15): 2469.

[7] LI Y, MARTINIS S, WIELAND M. Urban flood mapping with an active self-learning convolutional neural network based on TerraSAR-X intensity and interferometric coherence[J]. ISPRS Journal of Photogrammetry &Remote Sensing, 2019,152:178-191.

[8] TANGUY M, CHOKMANI K, BERNIER M, et al. River flood mapping in urban areas combining RADARSAT-2 data and flood return period data[J]. Remote Sensing of Environment, 2017, 198: 442-459.

[9] LI J, HE Z, PLAZA J, et al. Social media: new perspectives to improve remote sensing for emergency response[J]. Proceedings of the IEEE, 2017, 105(10): 1900-1912.

[10] 邢子瑶, 董芯蕊, 昝糈莉, 等. 融合VGI和遥感等多源数据的洪涝范围提取与模拟方法[J]. 地球信息科学学报, 2023, 25(9): 1869-1881.XING Z Y, DONG X R, ZAN X L, et al. flood inundation mapping and estimation using VGI, remote sensing images and other multi-source data[J]. Journal of Geo-Information Science, 2023, 25(9): 1869-1881.

[11] 国务院灾害调查组. 河南郑州“7·20”特大暴雨灾害调查报告[R/OL].(2021-01-21)[2024-06-04].https:∥www.mem.gov.cn/gk/sgcc/tbzdsgdcbg/202201/P020220121639049697767.pdf.The Disaster Investigation Group of the State Council. Disaster investigation report of Zhengzhou “7·20” heavy rain[R/OL].(2021-01-21)[2024-06-04]．https:∥www.mem.gov.cn/gk/sgcc/tbzdsgdcbg/202201/P020220121639049697767.pdf.

[12] HUANG W L, DEVRIES B, HUANG C Q, et al. Automated extraction of surface water extent from Sentinel-1 data[J]. Remote Sensing, 2018, 10: 797.

[13] 贾诗超, 薛东剑, 李成绕, 等. 基于Sentinel-1数据的水体信息提取方法研究[J]. 人民长江, 2019, 50(2): 213-217.JIA S C, XUE D J, LI C R, et al. Study on new method for water area information extraction based on Sentinel-1 data[J]. Yangtze River, 2019, 50(2): 213-217.

[14] 方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述[J]. 统计与信息论坛, 2011, 26(3): 32-38.FANG K N, WU J B, ZHU J P, et al. A review of technologies on random forests[J]. Statistics &Information Forum, 2011, 26(3): 32-38.

[15] TANG H L, LU S L, BAIG M H A, et al. Large-scale surface water mapping based on Landsat and Sentinel-1 images[J]. Water, 2022,14(9): 1454.

[16] 沈兰芝, 谌华, 范凤云, 等. 基于Q-OTSU算法高分三号水体快速提取方法研究: 以河南鹤壁洪涝灾害监测为例[J]. 自然灾害学报, 2022, 31(4): 134-143.SHEN L Z, SHEN H, FAN F Y, et al. Research on rapid extraction method of water based on Q-OTSU algorithm using domestic GF-3 image: a case of flood disaster monitoring in Hebi, Henan Province[J]. Journal of Natural Disasters, 2022, 31(4): 134-143.

[17] WANG Z Y, YE X Y. Social media analytics for natural disaster management[J]. International Journal of Geographical Information Science, 2018, 32(1): 49-72.

[18] 余水. 强降雨对合成孔径雷达风速反演的影响[D]. 杭州: 浙江大学, 2017.YU S. Effects of large precipitation to the wind retrieval from synthetic aperture radar[D]. Hangzhou: Zhejiang University, 2017.

[19] 张金萍, 张朝阳, 左其亭. 极端暴雨下城市内涝模拟与应急响应能力评估[J]. 郑州大学学报(工学版), 2023, 44(2): 30-37.ZHANG J P, ZHANG Z Y, ZUO Q T. Urban waterlogging simulation and emergency response capacity evaluation with extreme rainstorms[J]. Journal of Zhengzhou University (Engineering Science), 2023, 44(2): 30-37.