大坝安全监测是指对已有的观测资料进行采集、分析,并结合已有的历史资料,构建高效的预报模型,用来指导水库的科学调度和安全生产。因此,建立稳定且准确的混凝土坝变形预测模型至关重要[1-2]。近年来,研究人员已经开发了大量的数学模型,例如统计模型、确定性模型以及混合模型,这些模型通过分析混凝土坝的实时监测数据来描述和评估混凝土坝行为,是3种经典方法[3-4]。这些模型基于实时监测数据,主要分析了静水压力、时间和温度的影响,并能够指出监测值和影响量之间的关系。然而,由于这些特征具有周期性和非线性的特点,维度高、冗余信息较多,会影响机器学习模型的性能和效果[5-6]。对此,研究者引入随机森林(random forest, RF)算法,RF算法凭借其独特的决策树模型特征,基于纯度和信息增益的原理,可以清晰地区分特征的重要程度,从而选择最具代表性和相关性的特征。但是,如果特征的重要程度相似或特征过多,选择特征时会损失过多的有效信息,降低模型的预测效果。TSNE (t-distributed stochastic neighbor embedding)降维可以通过仿射变换将原始数据映射到新的特征空间,以改善数据的分布和可分性,提高模型的分类性能。该算法的优点是能够在保持样本之间的局部相似性的同时,捕捉非线性的数据结构,在可视化和聚类分析等领域有广泛应用[7]。然而,TSNE降维无法清晰地比较不同特征的重要性程度。为快速找到需要降到的目标维度,将RF算法和TSNE降维相结合,可以在不损失特征的情况下,有效地挖掘特征中的信息来提高模型的性能和效果[8]。
随机森林算法不仅可以清晰地分析特征的重要程度,还具有准确度高和训练速度快等优点,并且能够有效地处理多个参数之间存在的非线性关系,在水利水电开发中的运用日渐增多[9]。近年来对于RF算法的研究主要集中在提升其可解释能力与参数优化方面,黄海燕等[10]利用随机森林算法建立兼顾预测能力和解释能力的大坝变形监控模型,成功地对各个特征开展重要性分析;潘宇等[11]通过基于改进的随机森林算法建立了大坝安全监测历史数据质量评价算法,实例分析结果明显优于原始算法;曾永军等[12]采用经验法进行参数寻优,以构建基于随机森林的混凝土坝变形预测模型;仝晓哲等[13]采用网格搜索法寻找随机森林模型的最优参数组合。但是经验法和网格搜索法这两种传统方法都有很大的局限性。经验法主观性强,有局部极值倾向,算法预测性能差;网格搜索法可获得良好的优化结果,但是受到网络结构的影响,计算效率较低。因此,需要更好的方法来提高优化性能。群体智能算法具有准确性高、运算速度快等优势,例如麻雀搜索算法(sparrow search algorithm, SSA)、粒子群算法(particle swarm optimization, PSO)、灰狼优化算法(grey wolf optimizer, GWO)等,常用于求解优化问题[14-15]。北方苍鹰优化算法(northern gannet optimization,NGO)能够在解空间中搜索最优解或接近最优解的解决方案,相较于其他优化算法具有良好的稳定性以及较高的收敛精度等优点,可以解决复杂优化问题[16]。因此,本文通过TSNE降维提取特征中的有效信息,采用 NGO算法优化随机森林的超参数,提出了一种基于TSNE-NGO-RF的大坝变形预测模型。
TSNE算法是一种用于将复杂的高维数据转换为更容易解释的低维形式的非线性算法。该算法的核心在于保留高维数据样本之间的局部相似性关系,并在低维空间中重建这种相似性关系来实现降维。公式为
(1)
(2)
(3)
式中:Pi|j、Qi|j为相似度概率;σi表示以xi为中心点的高斯分布的方差;Pij为高维空间中的联合分布概率;Qij为低维空间中计算样本概率密度;KL(P‖Q)为P和Q之间分布的KL散度[17]。
RF算法是一种强大且有效的并行式集成分类器,它通过随机取样构建多个决策树,在所有的决策树训练完成后,将各个决策树合并成一个决策树森林,对于新数据的分类或预测任务,森林中的每棵树都会给出自己的判断,最终通过各个决策树投票方式做出决策[18]。RF这种集成学习方法,通过将多个决策树的预测结果进行集成,可以降低单个决策树对噪声和异常值的敏感度,从而提高模型的鲁棒性[19]。RF算法流程如图1所示。
图1 RF算法流程图
Figure 1 Flow chart of RF algorithm
本文使用NGO算法的主要目的是通过迭代寻优找出当前初始信号的最佳分解参数,其数学模型如下。
北方苍鹰对猎物的选择在全区搜索空间中随机进行全局搜索,这一过程会有效增加算法的搜索能力,从而确定猎物位置的最优区域。在这一阶段,北方苍鹰进行猎物选择和攻击的行为,用公式描述为
Pi=Xk,i=1,2,…,N,k=1,2,…,i-1,
i+1,…,N。
(4)
(5)
(6)
式中:Pi为第i只猎物位置;FPi为目标函数;
为第i个苍鹰的新位置;
为第i只苍鹰的第j维度的新位置;
为对应的目标函数值;r为(0,1)的随机数;I为1或2的随机整数。
北方苍鹰持续追踪逃跑中的猎物直至完成捕猎,通过模拟这一行为,可以有效提升模型的搜索能力。假设这种狩猎活动接近于一个半径为R的攻击位置,这一阶段可以用以下公式来表示:
(7)
(8)
(9)
式中:t为迭代次数;T为最大迭代次数;xi,j为当前迭代时的种群位置;
为第i个苍鹰的新位置;
为第i只苍鹰在第j维的新位置;
为目标函数[20]。
TSNE-NGO-RF算法流程如下:
步骤1 输入原始数据,对数据进行预处理,包括异常值修正、缺失值填补以及归一化等操作。将处理后的数据按时间先后顺序进行划分,将数据的前90%设为训练集,后10%设为测试集。
步骤2 对数据中的特征值进行TSNE降维处理,得到最适用于模型的特征值组合并用于后续的模型训练。
步骤3 输入训练集数据进行模型训练,初始化北方苍鹰优化算法中的种群数和随机森林算法中的参数,生成模型迭代次数并将需要进行寻优的决策树个数n和最小叶子节点数m输入NGO算法中,使用NGO优化算法进行迭代寻优,设定适应度函数为平均绝对误差(MAE)并以此评估模型性能,当适应度函数最小时得到随机森林模型最优模型参数。
步骤4 将测试集数据输入训练好的预测模型中,得到模型的预测值的图像和评价指标等结果,最后通过比较预测值和真实值的图像拟合效果以及计算评价指标的差异来量化分析模型的预测效果。
图2为基于TSNE-NGO-RF算法的预测模型流程图。
图2 基于TSNE-NGO-RF算法的预测模型流程图
Figure 2 Flow chart of prediction model based on TSNE-NGO-RF algorithm
某大坝为重力拱坝,共分30个坝段,布置有正垂线测点6个,倒垂线测点10个,正垂布置在8#、18#、26# 3个代表性坝段。坝区岩层除原生的单斜层状构造外,较大的断层有F11、F31、F32、F35等,微细裂隙发育,地质条件复杂,倒垂主要监测坝基和F11、F32大断层及两坝肩岩体变形。监测系统更新改造时,新增倒垂测点6条、正垂测点1条[21]。大坝垂线测点分布图见图3。
图3 大坝垂线测点分布图
Figure 3 Distribution map of vertical measurement points for the dam
大坝水平位移受复杂环境的综合影响,对评价大坝安全稳定运行有重要意义,在该大坝监测数据中,正垂线测点数据较为完整,用于监测典型坝段的位移,因此选取1973年1月至2007年7月期间第18、第26坝段坝顶水平位移监测数据建立数据集,对数据集进行预处理后总共得到3 854组数据,作为预测模型的数据输入。图4为两个坝段的测点位移。
图4 坝段测点位移
Figure 4 Displacement of measuring points in the dam section
在混凝土坝的运行过程中,坝顶水平位移受到静水水压、温度变化及时间效应的显著影响。为了模拟这些影响,采用以下模型因子:水压因子H、H2、H3、H4,温度因子
以及时效因子ln θ。其中,H为监测日上下游水位差;t为从开始测量到当前日期的天数;θ为0.01t[22]。对这些模型因子进行重要性评估,结果如图5所示。从图5可以看出,温度因子
的重要性较高,因此本文将8维模型因子通过TSNE算法降至2维,可以很好地保留其关键信息和数据完整性,然后将降维后的数据输入TSNE-NGO-RF组合模型中,用于后续的位移预测。
图5 模型因子的重要程度
Figure 5 Importance of model factors
为寻找随机森林模型的最优参数,进行以下参数设置:设定最大迭代次数为200次,同时初始种群数量为5,规定随机森林主要超参数决策树个数n和最小叶子节点数m的优化范围分别为[100,1 000]、[1,10]。设定适应度函数为采用平均绝对误差(MAE),当适应度函数为最小值时,选择其所对应的n和m作为随机森林模型参数的最优组合[23]。为比较不同模型的寻优性能,使用不同优化算法(SSA、PSO、NGO)寻找随机森林的最优参数,图6为不同优化算法的迭代收敛过程。由图6可以看出,NGO算法的收敛速度最快,第80次迭代完成,且收敛精度最高,MAE最小为0.249 3,此时决策树个数n和最小叶子节点数m分别为556和5。由于NGO算法结合了启发式搜索和进化算法的特点,这种结合不仅提升了算法的优化精度,还加快了优化过程的速度,在处理复杂优化问题时具有较好的性能,尤其适用于处理多峰值和离散类型的优化问题。
图6 SSA、PSO、NGO算法迭代收敛过程
Figure 6 Iterative convergence process of SSA,PSO,NGO algorithms
为了更好地对比和评价模型的准确性,对比TSNE-NGO-RF与SSA-RF、PSO-RF、NGO-RF模型的预测结果,同时为了验证RF算法具有集成学习的优势,引入支持向量机(support vector machine, SVM)模型和反向传播神经网络(back propagation, BP)模型进行预测,该仿真实验的硬件环境:CPU为Intel(R)Core(TM)i7-9750H; 显卡为NVIDIA GeForce GTX 1660 Ti with Max-Q。所有仿真实验及模型均在MATLAB R2024b软件中建立。每个大坝变形预测模型的预测曲线如图7所示。为评估模型的预测准确性,采用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、均方误差(MSE)和复相关系数R2进行评估。表1总结了图7所示6个模型对18#坝段和26#坝段的预测评估结果。分析结果可知,TSNE-NGO-RF模型的预测评价指标在这6个模型中均表现最好,评价指标相较于其他模型有明显的提升。尤其是R2增加了7.20%~17.07%。SVM和BP模型预测精度较差,这是因为这两种模型在超参数取值方面存在过拟合现象,而随机森林模型具有集成学习的优势,能有效避免过拟合现象,得到了较好的预测结果。同时,TSNE-NGO-RF模型相较于SSA-RF、PSO-RF、NGO-RF模型具有更高的寻优速度和精度,体现出该融合模型的优越性。
表1 预测模型对18#和26#坝段的预测性能比较
Table 1 Comparison of predictive performance of prediction models for the 18#th and 26#th dam sections
坝段模型MSE/mm2MAE/mmMAPE/%R218#坝段SSA-RF0.576 170.646 631.093 210.853 15PSO-RF0.735 990.758 421.137 230.825 19NGO-RF0.483 340.613 081.039 960.885 20SVM0.887 820.890 711.614 110.789 13BP0.921 080.824 881.504 030.781 23TSNE-NGO-RF0.359 710.501 930.819 590.914 5626#坝段SSA-RF0.073 260.205 700.139 430.820 89PSO-RF0.058 490.184 290.126 850.856 99NGO-RF0.059 440.192 340.132 010.854 67SVM0.080 770.242170.189 320.802 54BP0.092 620.245160.150 850.773 55TSNE-NGO-RF0.043 870.173 020.113 620.892 74
图7 大坝变形预测模型的预测曲线
Figure 7 Prediction curves of dam deformation prediction models
为验证本文提出模型的鲁棒性,使用生成对抗网络(generative adversarial network,GAN)来生成对抗样本并进行测试。对18#坝段共3 854组原始数据进行生成对抗网络后得到5 564组数据,并使用TSNE-NGO-RF模型进行预测,结果见表2。
表2 原始样本和生成对抗样本测试结果对比
Table 2 Comparison of adversarial samples test results
样本MSE/mm2MAE/mmMAPE/%R2原始样本0.359 710.501 930.819 590.914 56生成对抗样本0.462 210.586 070.825 990.890 22
综上所述,TSNE-NGO-RF模型不仅在18#坝段和26#坝段的预测结果较好,适用于多测点预测和长期监测数据预测,而且在进行对抗样本噪声输入后,模型在对抗样本上的准确率与原样本仅有2.7%的差距,说明模型不仅具有一定的泛化能力,而且对数据扰动的接受能力强,具有一定的鲁棒性。
(1)TSNE降维方法可以处理维度高、冗余信息多的特征值,有效改善数据的分布和可分性,提高模型的分类性能。NGO算法结合了群体智能算法和进化算法的优势,具有很高的收敛精度。与其他优化算法相比,NGO算法减少了迭代次数并且能快速达到最佳适应度值,更加适合解决复杂的优化问题。
(2)TSNE-NGO-RF混凝土坝变形预测模型展现出集成学习方法的显著优点,并有效规避了过拟合的风险,其预测结果的准确性和可靠性均表现优异。相较于其他优化模型,TSNE-NGO-RF模型预测结果取得了较好的结果,具有较高的预测精度和较强的稳健性。
[1] PRAKASH G, DUGALAM R, BARBOSH M, et al. Recent advancement of concrete dam health monitoring technology: a systematic literature review[J]. Structures, 2022, 44: 766-784.
[2] 樊小永, 刘嘉. 水库大坝运行期安全监测分析[J]. 工程技术研究, 2025, 10(9): 223-225.FAN X Y, LIU J. Analysis of safety monitoring of reservoir dam during operation period[J]. Engineering and Technological Research, 2025, 10(9): 223-225.
[3] 王健, 王士军. 全国水库大坝安全监测现状调研与对策思考[J]. 中国水利, 2018(20): 15-19.WANG J, WANG S J. Investigations on reservoir dam safety monitoring in China and measure study[J]. China Water Resources, 2018(20): 15-19.
[4] 龙耿文, 袁树才, 罗家良, 等. 水利工程大坝安全监测技术与发展研究[J]. 水上安全, 2025(20): 148-150.LONG G W, YUAN S C, LUO J L, et al. Research on dam safety monitoring technology and development of water conservancy projects[J]. Maritime Safety, 2025(20): 148-150.
[5] 吴中如, 吉肇泰. 坝前水库水温的变化规律和预测研究[J]. 水力发电, 1984, 10(4): 33-41.WU Z R, JI Z T. Research on the changes and prediction of water temperature in reservoir [J]. Water Power, 1984, 10(4): 33-41.
[6] 刘健, 王继敏, 杨强, 等. 混凝土大坝变形监测异常值识别方法及应用[J]. 水利水电科技进展, 2025, 45(6): 77-84.LIU J, WANG J M, YANG Q, et al. Method for identification of outliers in concrete dam deformation monitoring and its application[J]. Advances in Science and Technology of Water Resources, 2025, 45(6): 77-84.
[7] MAATEN L V D, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008,9: 2579-2605.
[8] BREIMAN L. Random forests[J]. Machine Learning,2001,45:5-32.
[9] SU H Y, SHEN W J, WANG J R, et al. Machine learning and geostatistical approaches for estimating aboveground biomass in Chinese subtropical forests[J]. Forest Ecosystems, 2020, 7(1): 64.
[10] 黄海燕, 艾星星, 刘兴阳, 等. 基于可解释性分析的大坝变形监控模型对比研究[J]. 人民长江, 2024, 55(9): 203-209.HUANG H Y, AI X X, LIU X Y, et al. Comparison of monitoring model for dam deformation based on interpretability analysis[J]. Yangtze River, 2024, 55(9): 203-209.
[11] 潘宇, 李登华, 丁勇. 基于改进随机森林的大坝监测数据质量评价算法[J]. 人民长江, 2024, 55(2): 231-237.PAN Y, LI D H, DING Y. Data quality evaluation algorithm on dam monitoring based on improved random forest[J]. Yangtze River, 2024, 55(2): 231-237.
[12] 曾永军, 张俊文, 曹登刚, 等. RS-RF模型在混凝土坝变形预测中的应用[J]. 水利水电技术, 2021, 52(5): 82-88.ZENG Y J, ZHANG J W, CAO D G, et al. Application of RS-RF model in deformation prediction of concrete dam[J]. Water Resources and Hydropower Engineering, 2021, 52(5): 82-88.
[13] 仝晓哲, 赵黎晨, 王佳明. 随机森林回归在大坝变形预测中的应用研究[C]∥2019年江苏省测绘地理信息学会学术年会论文集. 南京:江苏省测绘地理信息学会, 2019: 49-51.TONG X Z, ZHAO L C, WANG J M. Research on the application of random forest regression in dam deformation prediction[C]∥Proceedings of the 2019 Academic Annual Conference of the Jiangsu Society for Geodesy Photogrammetry and Cartography. Nanjing: Jiangsu Society for Geodesy Photogrammetry and Cartography, 2019: 49-51.
[14] 宋宝钢, 包腾飞, 向镇洋, 等. 基于小波的SSA-ELM大坝变形时空预测模型[J]. 长江科学院院报, 2023, 40(8): 145-151.SONG B G, BAO T F, XIANG Z Y, et al. Wavelet-based SSA-ELM spatio-temporal prediction model for dam deformation[J]. Journal of Changjiang River Scientific Research Institute, 2023, 40(8): 145-151.
[15] 张文煜, 马可可, 郭振海, 等. 基于灰狼算法和极限学习机的风速多步预测[J]. 郑州大学学报(工学版), 2024, 45(2): 89-96.ZHANG W Y, MA K K, GUO Z H, et al. Multistep prediction of wind speed based on grey wolf algorithm and extreme learning machine[J]. Journal of Zhengzhou University (Engineering Science), 2024, 45(2): 89-96.
[16] DEHGHANI M, HUB
LOVSKY
, TROJOVSKY P. Northern goshawk optimization: a new swarm-based algorithm for solving optimization problems[J]. IEEE Access, 2021, 9: 162059-162080.
[17] 谭建所, 吴兴华, 徐文光, 等. 基于tSNE-LSTM算法的工业预测模型[J]. 现代电子技术, 2024, 47(12): 81-85.TAN J S, WU X H, XU W G, et al. Industrial prediction model based on tSNE-LSTM algorithm[J]. Modern Electronics Technique, 2024, 47(12): 81-85.
[18] BARAL P, HAQ M A. Spatial prediction of permafrost occurrence in Sikkim Himalayas using logistic regression, random forests, support vector machines and neural networks[J]. Geomorphology, 2020, 371: 107331.
[19] SHANNON C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(3): 379-423.
[20] 詹明强, 陈波, 袁志颖. 基于KPCA-NGO-LSSVM的混凝土坝变形预测模型[J]. 水电能源科学, 2024, 42(8): 127-131.ZHAN M Q, CHEN B, YUAN Z Y. Deformation prediction method of concrete dam based on KPCA-NGO-LSSVM[J]. Water Resources and Power, 2024, 42(8): 127-131.
[21] 秦俊德. 陈村大坝坝基渗压问题的探讨[J]. 大坝与安全, 1991(4): 28-33.QIN J D. Discussion on the seepage pressure problem of Chencun Dam foundation [J]. Large Dam and Safety, 1991(4): 28-33.
[22] 吴中如. 水工建筑物安全监控理论及其应用[M]. 北京: 高等教育出版社, 2003: 157-170.WU Z R. Safety monitoring theory &its application of hydraulic structures[M]. Beijing: Higher Education Press, 2003: 157-170.
[23] 张石, 郑东健, 陈卓研. 基于改进PSO-RF算法的大坝变形预测模型[J]. 水利水电科技进展, 2022, 42(6): 39-44.ZHANG S, ZHENG D J, CHEN Z Y. Dam deformation prediction model based on improved PSO-RF algorithm[J]. Advances in Science and Technology of Water Resources, 2022, 42(6): 39-44.