风能是目前最重要的清洁能源,它的可再生性促进了风力发电技术的高速发展。由于大型风电机组所处地区偏远、环境恶劣,在安装运行中会出现大量故障,影响机组安全运行[1],对其故障进行快速排查定位可缩短维修时间,提升运行效率,减少经济损失。
目前智能故障诊断方法总体可分为基于模型和基于数据驱动2类。基于数据驱动的方法需要全面监测数据并提取相关特征,特征的准确程度决定了诊断的精度。胡澜也等[2]根据数据采集与监控系统(SCADA)的运行数据,结合LightGBM方法构建的故障识别模型对于处理重叠故障具有更好的性能。温竹鹏等[3]提出小波变换和二维密集连接扩张卷积神经网络的方法,提升了故障特征的提取能力和诊断精度。此类故障诊断方法依赖于庞大故障数据集,具有一定适用性。但其诊断结果由于缺少知识支撑和诊断过程,解释机制有一定局限性[4]。
知识图谱的概念最早由谷歌公司提出,并逐步成为现在的研究热点,在各个领域都能体现其价值[5],例如在灾害应急、医学[6]等领域。在机械故障诊断领域中,基于知识图谱的方法可快速帮助定位故障源、缩短排查故障原因的时间,其过程具有良好的可解释性和逻辑性,因此引起了研究人员的广泛关注。Wu等[7]基于半自动实体抽取方法,对非结构化历史运维数据进行规则化和结构化,实现故障预测与快速定位。郭恒等[8]采取“数据+模型+知识”方法,融合、存储了大量非结构化数据,构建了维修性知识图谱。对于越复杂的结构系统,知识抽取与融合越关键。吴闯等[9]通过搭建知识管理模型,基于知识图谱构建了智能问答系统,提供了可靠的数据支撑。
本体是一种提升共享性与重用性的语言规范[10],用来表达结构化和逻辑相关的知识,被广大研究学者引入到知识库构建中。根据实际问题探讨对知识的合理分层结构[11],设计者与用户共识度越高,本体库泛用性就越高。周亮等[12]基于本体方法构建故障树,根据JESS推理机对SWRL规则的推理,可实现系统故障的快速定位。Hodkiewicz等[13]将本体应用到FMEA工业数据中并提取概念与逻辑,提升机器可读性,通过OWL-DL推理最终故障影响。
对于故障树模型,综合多方面的领域知识以及参数信息是提升实用性的关键,现阶段部分学者对故障树的研究还未结合知识图谱进行拓扑分析,因此本文提出以故障树为基础的知识图谱构建方法。基于双向长短期记忆网络(BiLSTM)、条件随机场(CRF)及BERT预训练模型的方法对非结构化数据进行实体信息抽取,并通过改进模型的结构,达到更好的抽取效果。在此基础上,构建条件故障树,实现故障知识结构化,结合FMECA进行信息完善,通过Protégé软件对知识本体化,利用知识融合提升共享性。最后使用Neo4j数据库进行展示,为风力发电机智能故障诊断系统的构建提供数据支持。
对于中大型风力发电机,由于故障信息非结构化,其维修案例中也多为专业人员总结,内容繁杂,采取<实体,关系,实体>三元组的形式可直观、形象化表达知识系统,如图1所示。
图1 三元组结构
Figure 1 Triple structure
知识图谱的构建方法主要有自顶向下和自底向上2种[14],本文采用自底向上的方法构建风力发电机故障知识图谱,主要包括故障知识抽取,知识数据结构化与本体化,具体构建流程如图2所示。
图2 风力发电机知识图谱构建流程
Figure 2 Construction process of wind turbine knowledge graph
对文本数据进行知识抽取是构建知识图谱的重要步骤。常晓莹等[15]对BiLSTM-CRF模型进行了详细解读,在垃圾分类任务中取得了一个很好的效果,但是对于语义越复杂的数据领域,模型效果就越差。近年来,BERT模型被提出,由于其强大的语义特征提取能力,研究学者开始将BERT模型应用于数据挖掘[16]。
1.2.1 BERT-BiLSTM-CRF模型简介
传统LSTM是单向结构,其中遗忘门与输入门负责筛选有用的信息,并通过输出门以及记忆细胞的乘积输出,由于该模型无法同时分析文本上下文信息,故引入BiLSTM模型,其核心思想是采取双向LSTM,对同一时刻的输出合并,因此,每一个时刻都有对应的前向与后向信息。CRF模型采用softmax分类器,负责处理相邻标签的依赖关系,减少错误标签顺序的预测,优化序列,提升预测结果的准确性,相应地弥补了BiLSTM的缺点。
BERT模型通过双向Transformer可更好地捕捉语句中的双向关系,提取文本的语义特征与关系特征并转化为词向量传入下一层,借助预训练的优势来减轻实体命名识别任务的下游任务,提升识别效果。图3为BERT模型结构图,其中 Ei指输入的字或词,Ti指预测结果,Trm为 Transformer 模型。
图3 BERT模型结构图
Figure 3 BERT model structure diagram
采取BIO(B为实体的开始,I为实体的中间或结束,O表示非实体)策略,共定义了7类标签(功能系统、故障特征、故障原因、故障现象、故障影响、维修方法、机械结构),进行模型训练后,以未标注数据中故障原因标签(reason)预测为例,BERT-BiLSTM-CRF结构如图4所示。利用BERT模型的语言表征提取优势,将该模型与BiLSTM进行输出拼接,使向量蕴含了更丰富的语义特征,增强BERT-BiLSTM-CRF模型的实体识别效果。
图4 BERT-BiLSTM-CRF网络结构图
Figure 4 BERT-BiLSTM-CRF network structure
本文以近几年的中大型风力发电机故障分析案例为数据集,其格式如表1所示。
表1 故障数据集格式示例
Table 1 Example of fault dataset format
序号风力发电机相关故障分析12012年11月,对内蒙古某风电场偏航轴承设备损坏问题、对偏航轴承的失效问题加以研究。逐一排查偏航轴承失效:失效轴承均存在一定的材质不良,硬度不足。其中35103号机位偏航刹车闸钳与刹车盘干涉接触,导致无法偏航,是此次事件的起因。润滑不良为次要原因。2液压系统容量一般不超过20 L(包括变桨系统功能的除外),所用液压泵排量一般不超过2 mL/rad,某风力发电机的压力无法上升分析:电机、油泵单次工作时间长且持续工作,原因有液压泵损坏、液压油不足、系统存在泄漏等,如不及时处理,将影响风力发电机的安全运行。
按照数据类别设置标签名称,使用BIO标注数据集后,将所有数据整合为一个文件,按8∶1∶1划分训练集、测试集以及验证集,以此为数据集进行模型测试,采用F1值评估,其计算公式如下:
(1)
式中:P为精确度;R为召回率。
1.2.2 改进模型
本文的模型环境基于Python的keras框架搭建,为提升模型的识别效果,采用以下优化方案:①训练中保存最优模型时,将指标从token准确率替换为标签识别完整的准确率;②添加学习率衰减策略,当训练次数epochs未完成且F1值不再提升时,衰减当前学习率,将学习率降低至原来的1/10;③分层设置学习率,由于BERT模型特性,学习率要维持小的量级,而BiLSTM模型不适用,故扩大学习率至原来的500倍,减轻训练负担;④添加对抗训练,在BERT的embedding-token层添加扰动来构造一些对抗样本,交付模型预训练,提高模型在对抗样本上的鲁棒性,提升泛化性能,扰动量设为0.5。与传统模型进行实验对比(采取相同数据集),结果如表2所示。
表2 模型效果对比
Table 2 Model effect comparison
模型PRF1BiLSTM-CRF0.888 90.859 50.873 9BERT-BiLSTM-CRF0.948 70.934 30.941 4改进BERT-BiLSTM-CRF0.969 30.964 80.966 8
故BERT-BiLSTM-CRF改进模型在风力发电机故障知识领域满足实体识别的一致性要求且效果良好,可用于故障知识抽取,为自动构建故障知识图谱提供了模型支持。
风力发电机组中的液压刹车系统包括气动刹车和机械刹车。本文以液压刹车系统故障为例,对传统故障树加入故障征兆并展开分析,如图5所示。表3为故障树各个节点对应的事件名称。
表3 液压刹车系统故障树事件
Table 3 Fault tree events of hydraulic brake system
序号事件内容序号事件内容A液压刹车故障X8长时间未加油b1气动刹车压力低X9阀外盖有杂物b2不能维持液压X10马达接线松脱b3油泵起动频繁X11固定架松脱b4电磁阀动作异常X12油泵性能下降b5收桨失败X13液压系统漏油b6机刹噪声与振动X14蓄能器压力不足b7刹车盘过热X15系统混入空气B1气动刹车失效X16压力继电器故障B2建压功能失效X17弹簧力不足B3油泵故障X18电磁线圈短路B4电磁阀故障X19工作压差不适B5叶尖扰流器故障X20阀体变形B6设计与组装问题X21阀芯卡死B7机械刹车故障X22油黏度不适d1液压油不足X23密封件损坏d2频繁停机X24电磁阀损坏D1液压油泄漏X25导管连接密封差D2刹车片故障X26连接松动X1飞车保护闸故障X27阻尼板销轴卡死X2电磁阀无电X28叶尖甩出不平衡X3压力开关未重调X29刹车片间隙不适X4电磁阀线圈过紧X30传感器故障X5油管泄漏X31雷击X6空气过滤器故障X32电网不稳定X7滤清器故障
图5 液压刹车系统故障树分析
Figure 5 Fault tree analysis of hydraulic brake system
该故障树包含1个顶事件、32个底事件与9个中间事件,顶事件用A表示,底事件用Xi表示,中间事件用Bm与Dn表示,可得出最小割集:{X1}、{X2}、{X3}、{X4}、{X5}、{X6}、{X7}、{X8}、{X9}、{X10}、{X11}、{X12}、{X13}、{X14}、{X15}、{X16}、{X17}、{X18}、{X19}、{X20}、{X21}、{X22}、{X23}、{X24·X25}、{X26}、{X27}、{X28}、{X29}、{X30}、{X31}、{X32}。布尔代数表达式为A=X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12+X13+X14+X15+X16+X17+X18+X19+X20+X21+X22+X23+X24·X25+X26+X27+X28+X29+X30+X31+X32。
设底事件的Xi的发生概率为Pi,且底事件之间相互独立,故障树中“或”门概率公式计算见式(2),“与”门概率公式计算见式(3),顶事件发生概率为每个最小割集发生概率之和。
(2)
(3)
根据故障树中不同底事件的重要程度不同,通过概率重要度和关键重要度来分析。其概率重要度表示底事件发生概率的变化对顶事件发生概率的影响程度[17],公式计算见式(4)。关键重要度表示底事件发生概率的变化率所导致的顶事件发生的变化率,公式计算见式(5)。
(4)
式中:αi为底事件Xi的概率重要度;θ(P)为顶事件的发生概率;Pi为底事件Xi的发生概率;θ(1iP)为底事件Xi发生时顶事件发生的概率;θ(0iP)为底事件Xi未发生时顶事件发生的概率。
(5)
式中:βi为底事件Xi的关键重要度。
将实际案例中故障数据Xi与Pi代入上述公式,通过故障树分析可得出液压刹车系统故障的发生概率,以及每个底事件的重要度参数。
FMECA是针对系统结构的可靠性评价技术,通过设备故障模式与失效分析,调查原因与故障影响,以严酷度、发生度和可探度为评价参数,通过计算最后得出危害度(RPN),危害度用于复杂系统的可靠性维修,并降低设备故障率。表4为典型FMECA表单示例。
表4 FMECA表单示例
Table 4 Example of FMECA form
故障代码故障位置模式故障原因故障影响发生度严酷度可探度RPNYYXT010油泵流量不足液压油泄漏液压系统供油478224YXTY011油泵压力不足空气混入液压系统供油26896
构建本体是提升知识库共享性的基础,采取本体的表示方法能够精确定义领域知识的概念、内在关系与属性,基于该方法,将知识用以下模型表示:
〈C,AC,AR,R,E,T〉。
(6)
式中:C为本体类的集合;AC为类属性的集合;AR为关系属性的集合;R为本体关系的集合;E为实例的集合;T为公理的集合。
针对故障知识进行本体类定义,可表示为
C={C1,C2,C3,C4,C5,C6,C7,…}。
(7)
式中:C1为功能系统类概念;C2为故障特征类概念;C3为故障原因类概念;C4为维修方法类概念;C5为故障影响类概念;C6为故障现象类概念;C7为机械结构类概念。
针对故障知识进行本体关系定义,可表示为
R={R1,R2,R3,R4,R5,R6,…}。
(8)
式中:R1为功能系统类与故障现象类的关系;R2为功能系统类与机械结构类的关系;R3为故障现象类与故障原因类的关系;R4为故障现象类与故障影响类的关系;R5为故障原因类与维修方法类的关系;R6为故障现象类与故障特征类的关系。
以下为关系的语义示例:
(1)R1=Rhas_phenomenon(C1,C6) 表示某功能系统发生了某个故障现象;
(2)R2=Rhas_structure(C1,C7) 表示某功能系统由某些结构组成;
(3)R3=Rhas_reason(C6,C3) 表示导致某故障现象的有某些原因;
(4)R4=Rhas_influence(C6,C5) 表示某故障现象具有某些故障影响;
(5)R5=Rhas_advice(C3,C4) 表示某故障原因可采取的维修建议;
(6)R6=Rhas_character(C6,C2) 表示某故障现象具有某些故障特征。
在风力发电机诊断知识中的本体模型中,AC为类概念的附加属性,例如ID属性,每个节点在知识图谱中的ID唯一。AR为关系概念的附加属性,例如type属性是对复杂的关系概念分类、名称标识等。E为实例的集合,例如对发电机实例化:双馈异步类型、3 150 kW功率等。T为公理集合,例如传递、等价、继承等约束,是知识推理的基础。通过Protégé软件开发领域知识本体,如图6所示为“故障现象”概念类的部分展开图。其 Hermit推理机可对本体所有概念类进行语义一致性检验,确保模型的一致性。
图6 风力发电机故障知识本体
Figure 6 Wind turbine fault knowledge ontology
由于领域内专家、设计者和工作人员等对知识的认同存在差距,故本体异构性也会影响知识的共享性,需通过本体之间映射关系计算邻近概念的相似度。本文引入一种知识融合的方法,在本体概念之间对字符串相似度进行计算,设概念1为字符串y,概念2为字符串z,相似度计算公式为
(9)
式中:γ为调节系数,随两概念的相似字符个数增大而增大;K为两概念中相同字符数量;L为概念1存在而概念2不存在的字符数量;M为概念2存在而概念1不存在的字符数量;N为两概念的总字符数量。
由于语义相似的同时可能存在知识结构差异,因此还需引入结构相似度,最终确定概念之间综合相似度。具体融合过程如图7所示。
图7 知识融合过程
Figure 7 Knowledge fusion process
Neo4j图数据库由节点、关系以及属性组成,相比于传统的关系型数据库而言,图数据库可直接表达数据的关联特性,可存储大量多源异构的数据,节省存储空间。
由于Protégé的数据存储为owl文件,不易作为软件开发的数据基础,于是将owl本体数据通过Rdf2rdf模块转化为RDF文件,导入Neo4j,生成具有良好开发性的知识数据,图8所示为图谱的部分展开图。
图8 风力发电机知识图谱展示
Figure 8 Display of knowledge graph for wind turbines
2013年10月,某风电场中某台FD70B/1500型机风力发电组(采用液压系统制动)频繁报液压系统压力低故障,查询机组监控设备后得知液压系统的油泵及电机频繁启动,且机组中主轴制动器和偏航制动器电机在非工作状态下约20 s启动一次。维修人员的非目的性排查流程为①检查液压系统的油管,不存在泄漏点;②更换油泵电机,系统压力值正常但未解决;③检查滤芯堵塞问题;④更换蓄能器,系统压力值正常且稳定,通过测试蓄能器性能,最终确定原因为蓄能器的隔膜破裂导致漏气。
基于知识驱动时,提取案例中存在的故障征兆,在Neo4j图数据库中查询,得出所属故障现象,并推理下一层事件,根据危害性分析参数排查原因。如图9所示,提供了故障诊断路径与设备结构,辅助维修人员快速定位故障源。
图9 知识图谱推理结果
Figure 9 Knowledge graph reasoning results
数据库类型可分为关系型数据库与图数据库,基于故障树分析建立关系型数据库:以故障原因与故障现象为例,一个故障现象可对应多个原因,一个原因可对应多个故障现象,需建立如图10所示的双向关联表,外键用于单向关联。
图10 双向关联表
Figure 10 Bidirectional association table
该存储方式存在以下缺点:①当故障树需要拓扑更多维度的知识时,会建立更多更复杂的表,难以清晰地表示关系,且维护困难;②基于存储数据形式的问题很难直接通过数据表来表达知识之间的逻辑关系,不利于知识重用;③该数据库使用SQL语言操作,专业性强,工作人员难以直接将经验转化为计算机语言存储。
而Neo4j图数据库可高效地表达知识结构:①不需要建立复杂关联表,只需针对知识节点信息创建;②面对多源异构的数据,可清晰地建立逻辑关系;③使用Cypher语言驱动,逻辑编写简单、可读性强,非编程人员也可快速掌握。
由于风力发电机故障维修知识缺乏管理与利用,技术资源无法有效重用,为了避免资源浪费,本文研究了风力发电机故障知识图谱的构建方法:①在故障域的海量数据中,通过训练并改进得到效果良好的BERT-BiLSTM-CRF模型,该模型用于知识提取;②对故障实体构造故障树结构并进行分析,添加推理条件,提供故障排查的技术支持;③通过Protégé对故障数据本体化与结构化,检验语义一致性,提升知识库的共享性;④通过 Neo4j图数据库提升数据的读写性能,为诊断系统的软件开发提供了良好的数据支撑。最后,通过风力发电机事故案例证明,基于条件故障树分析方法所构建的知识图谱具备快速定位故障源的能力,为智能问答系统奠定了基础。
[1] 王致杰, 徐余法, 刘三明. 大型风力发电机组状态监测与智能故障诊断[M]. 上海: 上海交通大学出版社, 2013.
WANG Z J, XU Y F, LIU S M. Condition monitoring and intelligent fault diagnosis of large wind turbine[M]. Shanghai: Shanghai Jiao Tong University Press, 2013.
[2] 胡澜也, 蒋文博, 李艳婷. 基于LightGBM的风力发电机故障诊断[J]. 太阳能学报, 2021, 42(11): 255-259.
HU L Y, JIANG W B, LI Y T. Fault diagnosis of wind turbine based on LightGBM[J]. Acta Energiae Solaris Sinica, 2021, 42(11): 255-259.
[3] 温竹鹏,陈捷,刘连华,等.基于小波变换和优化CNN的风电齿轮箱故障诊断[J].浙江大学学报(工学版),2022,56(6):1212-1219.
WEN Z P, CHEN J, LIU L H, et al. Fault diagnosis of wind power gearbox based on wavelet transform and optimized CNN [J]. Journal of Zhejiang University (Engineering Edition), 2022,56(6): 1212-1219.
[4] 高洁. 基于贝叶斯网络的复杂工业过程故障诊断问题研究[D]. 杭州: 浙江大学, 2019.
GAO J. Research on fault diagnosis of complex industrial process based on Bayesian network[D]. Hangzhou: Zhejiang University,2019.
[5] 杭婷婷, 冯钧, 陆佳民. 知识图谱构建技术: 分类、调查和未来方向[J]. 计算机科学, 2021, 48(2): 175-189.
HANG T T, FENG J, LU J M. Knowledge graph construction techniques: taxonomy, survey and future directions[J]. Computer Science, 2021, 48(2): 175-189.
[6] 侯梦薇, 卫荣, 陆亮, 等. 知识图谱研究综述及其在医疗领域的应用[J]. 计算机研究与发展, 2018, 55(12): 2587-2599.
HOU M W, WEI R, LU L, et al. Research review of knowledge graph and its application in medical domain[J]. Journal of Computer Research and Development, 2018, 55(12): 2587-2599.
[7] WU J S, XU X M, LIAO X, et al. Intelligent diagnosis method of data center precision air conditioning fault based on knowledge graph[J]. Electronics, 2023, 12(3): 498.
[8] 郭恒, 黎荣, 张海柱, 等. 多域融合的高速列车维修性设计知识图谱构建[J]. 中国机械工程, 2022, 33(24): 3015-3023.
GUO H, LI R, ZHANG H Z, et al. Construction of knowledge graph of maintainability design based on multi-domain fusion of high-speed trains[J]. China Mechanical Engineering, 2022, 33(24): 3015-3023.
[9] 吴闯,张亮,唐希浪,等.航空发动机润滑系统故障知识图谱构建及应用[J/OL].(2022-03-06)[2022-09-27].https:∥kns.cnki.net/kns8/defaultresult/index.
WU C, ZHANG L, TANG X L, et al. Construction and application of aeroengine lubricating system fault knowledge graph [J/OL]. (2022-03-06)[2022-09-27].https:∥kns.cnki.net/kns8/defaultresult/index.
[10] ANJUM N, HARDING J, YOUNG R, et al. Verification of knowledge shared across design and manufacture using a foundation ontology[J]. International Journal of Production Research, 2013, 51(22): 6534-6552.
[11] RANDALL D, PROCTER R, LIN Y W, et al. Distributed ontology building as practical work[J]. International Journal of Human-Computer Studies, 2011, 69(4): 220-233.
[12] 周亮, 黄志球, 黄传林. 故障树领域本体及SWRL规则的构建方法研究[J]. 计算机科学, 2015, 42(8): 198-202.
ZHOU L, HUANG Z Q, HUANG C L. Construction method for fault tree domain ontology supporting SWRL rules[J]. Computer Science, 2015, 42(8): 198-202.
[13] HODKIEWICZ M, KLÜWER J W, WOODS C, et al. An ontology for reasoning over engineering textual data stored in FMEA spreadsheet tables[J]. Computers in Industry, 2021, 131: 103496.
[14] 李涛, 王次臣, 李华康. 知识图谱的发展与构建[J]. 南京理工大学学报, 2017, 41(1): 22-34.
LI T, WANG C C, LI H K. Development and construction of knowledge graph[J]. Journal of Nanjing University of Science and Technology, 2017, 41(1): 22-34.
[15] 常晓莹,宋绍京,王华.垃圾分类知识图谱构建研究与实现[J].计算机应用与软件,2022,39(5):247-252.
CHANG X Y, SONG S J, WANG H. Research and implementation on the construction of knowledge map of waste classification [J]. Computer Application and Software, 2022,39(5): 247-252.
[16] 谢腾, 杨俊安, 刘辉. 基于BERT-BiLSTM-CRF模型的中文实体识别[J]. 计算机系统应用, 2020, 29(7): 48-55.
XIE T,YANG J A, LIU H. Chinese entity recognition based on BERT-BiLSTM-CRF model[J]. Computer Systems &Applications, 2020, 29(7): 48-55.
[17] 李新民, 罗学科, 李文, 等. 基于FTA的水质微型站智能故障诊断专家系统研究[J]. 给水排水, 2020, 56(5):143-148.
LI X M, LUO X K, LI W, et al. Study on intelligent fault diagnosis expert system for water quality mini-station based on FTA[J]. Water &Wastewater Engineering, 2020, 56(5):143-148.