基于自动编码器和SVM的轴承故障诊断方法

基于SVM的轴承故障诊断本质上是一种模式识别.SVM作为一种经典的分类器，不断地被优化并应用于各种生物信息学、模式识别等问题中[1].Mohammed等提出了基于自适应群体智能(self-adaptive cohort intelligence, SACI)算法的特征选择和SVM模型选择的混合方法，以减小特征冗余从而降低分类计算复杂度，提高SVM的准确性.姚亚夫等[2]将轴承振动信号EMD后得到的瞬时能量熵用于SVM的分类诊断，经过实验验证，该方法能够有效地识别轴承正常状态、内圈故障、外圈故障以及滚珠故障.

从文献[1,2]可以看出，为了提高识别、诊断能力，提取到合理、明显的故障特征是运用SVM进行分类的重要环节.最近，文献[3]提出了一种基于多目标优化(multi-objective optimization, MO)的EMD方法，任子晖等[4]将局部均值分解(local mean decomposition, LMD)加以改进，都取得了更好的特征提取效果.HUANG等[5]运用各阶本征模函数(intrinsic mode function, IMF)的时频熵(time-frequency entropy)实现了对原信号能量分布的准确描述.此外特征提取也可以通过神经网络实现,神经网络能够灵活地处理数据，在模式识别、分类、预测等方面被广泛地应用，在处理工业大数据方面有广阔的应用前景[6]，使机械的故障诊断更加智能化.其中自动编码器(auto-encoder,AE)作为一种无监督的自学习网络，实现了信号的重构与特征提取，三层网络结构使得输出层的编码矢量成为输入层数据的特征表示[7].Hinton等[8-9]提出由深度学习(deep learning, DL)理论构建的DNN，就是先将多个无监督学习的AE串联，构成DNN的多层网络框架进行数据特征提取；然后通过误差反向传播(back propagation, BP)算法的有监督学习，对上述各层AE进行参数调整，使整个DNN具备识别、诊断能力[10].

AE的应用是DL中的重要组成部分.神经网络中的AE隐含层是一个编码器加上一个解码器，输入数据经过隐含层的编码和解码，到达输出层时，确保输出的结果尽量与输入数据保持一致.这样做使得维度较低的隐含层能够抓住输入数据的特点，使其特征保持不变.笔者根据AE本身的特点将DAE与SVM相结合，以提高SVM在轴承故障诊断中的识别能力，并与运用轴承振动信号各阶IMF能量熵来进行SVM的故障诊断效果对比，体现本方法的优越性.

1 相关技术原理

1.1 AE原理

AE的结构如图1所示，分为编码网络(coding network)与解码网络(decoding network).

AE的输入数据与输出目标是相同的，就是将向量组{xm}通过编码变成低维的{hm}，{hm}再经过反编码转换回

如果在这个过程中输入{xm}与输出

一致，则认为编码矢量hm很好地重构了xm.则上述过程中，自动编码器的输出结果表示为：

对特征提取结果hm进行反编码可得：

最后通过规划{xm}与

的误差最小问题，求解{W,b}、{W′,d}等参数,

式中：f、g分别是编码网络和解码网络的激活函数；{W,b}、{W′,d}是网络对应的连接权值和偏置.上述训练过程的目的是得到{W,b}，用以实现对任意高维向量X，提取到其特征表示H，

1.2 多层DAE结构

考虑到实际应用中的复杂情况，为了进一步增加AE学习的鲁棒性，将用于重构学习的一部分数据随机添加符合一定统计特征的噪声，然后使得AE能够根据噪声的特点估计出没有添加噪声的原始数据，进而提高AE的抗干扰能力，这便是去噪自编码器的核心思想[11].

向xm中加噪声，可以是将其中的一部分数据随机置零，或者是按照二项随机分布向xm中添加噪声[12]，含有噪声的数据表示为x0m.则DAE的训练目标调整为：

一个多层DAE的特征提取过程如图2所示.

在经过m组数据的迭代训练后，获得隐层权值W以及偏置b，便可用于多层DAE特征提取模型的参数初始化.多层DAE结构即是DNN最基本的结构框架(如图2所示)，它是由一系列训练好的DAE编码网络实现的特征深度提取.其中第l层DAE特征提取过程为：

2 具体实施方式

2.1 特征提取的具体实施方式

运用多层结构的DAE网络，通过无监督学习，实现了轴承运转状态的特征提取.即多层DAE特征提取是将该时刻轴承振动频谱作为图2中多层DAE网络框架的输入，依次对各层DAE依据图1所述的方式进行参数回归，最终得到该时刻的特征向量hm.

为了使提取到的特征具备很好的稀疏性，DAE的训练目标可进一步演变为：

式中：k稀疏惩罚系数；hi表示DAE隐藏层第i个节点的输出；ξ为一较小的常数，且稀疏控制条件为：

通过以上的改进，DAE提取特征的稀疏性得以保证，且不增加额外的训练时间.多层DAE的建立及特征提取实现流程如图3所示.

2.2 训练SVM的具体实施方式

如图3所示，轴承的状态特征通过DAE提取出来后，接着被用于SVM的训练和诊断.将这些特征作为训练样本，并将轴承的6种工作状态按表1中的编号作为SVM的分类标签，进行SVM的训练，使之具有故障诊断的能力.

3 效果对比试验

本试验数据来自美国西储大学轴承数据中心，以12 000 Hz为采样频率，采集电机驱动端轴承不同类型故障的信号.轴承故障程度不一，且电机转速为1 730～1 797 rad/min.

随机选取每种故障类型不同故障程度的振动信号.分别用EMD能量熵和DAE进行特征提取.其中EMD能量熵是指先将信号分解成为若干个IMF分量，设第i阶IMF分量的能量为Ei，且令[13]：

则其能量熵为：

将各阶IMF的能量熵作为轴承运转状态的表征，达到特征提取的目的，还可以通过剔除某些阶的IMF分量以实现降噪和减少特征冗余.

选取相关性较强的前12阶IMF分量的能量熵作为提取到的EMD能量熵特征向量；同样地，运用上文提出的DAE将原信号频谱进行特征自提取，为使两种方法更具可比性，设定最后一层DAE的输出节点(即上文中hm的长度)也为12.因此，得到每个故障信号的EMD能量熵特征、DAE提取特征均是维度为12的向量.

3.1 提取特征的直观对比

为了直观地观察两种方法提取到的各类故障特征聚集情况，对提取到的特征分别做主成分分析(principal component analysis, PCA)，将纬度为12的特征向量转换到三维坐标系中.分别如图4、图5所示.

由图4、图5可以看出，基于DAE特征提取的不同故障特征分布聚散情况较为分明(其中▽数据聚集在被其他数据遮挡着的另一侧).在这两种特征提取方法的基础上，最终运用SVM分别实现等维空间内故障特征的分类.

3.2 故障诊断效果对比

先分别用两种特征提取方式提取到的、包含了不同故障类型的600组12维(12×600)特征向量及其对应的故障类型标签训练SVM.再用两种建立好的特征提取模型，实现6 100组代表轴承不同故障类型的测试数据特征提取，并根据提取到的6 100组故障特征(12×6 100)诊断其故障类型，对比结果见表2.

图6为6 100组测试数据，其中纵坐标表示故障对应的分类标签编号(参照表1)，横坐标表示测试数据组数.基于两种不同的特征提取方法的SVM故障诊断结果如图7所示.

由图7可以看出,基于DAE特征提取的SVM故障诊断明显比基于EMD能量熵特征提取的SVM诊断准确率高.在6 100组测试数据中，前者出现不到50例诊断错误，且经观察分析，误诊故障与实际发生的故障极为相近.由此可以判断DAE是一种更具优势的特征提取方法.

4 结论

本方法主要是针对故障诊断领域，运用基于无监督学习、数据驱动的故障特征提取，来提高诊断精度.试验证明DAE这一完全自适应的提取方法能够明显起到特征提取的作用，由于DAE在特征提取中良好的鲁棒性，避免了由于数据变化而需要建立复杂的特征提取模型；另外，在此基础上建立的故障诊断方法，其诊断精度得到显著的提高.这一方法是直接以轴承的频谱作为输入的，能够通过AE自动地提取故障特征来实现轴承数据的预处理，因此与其他故障诊断方法中需要人为地设计数据预处理方式的情况相比，更显智能化.

本方法并未具体阐述却有研究价值的方面：可以讨论通过一定的方法改善、规范化DAE训练过程中加噪参数、DAE层数、各层输出节点数等，有望达到更高的识别精度.

[1] ALADEEMY M, TUTUN S, KHASAWNEH M T. A new hybrid approach for feature selection and support vector machine model selection based on self-adaptive cohort intelligence[J]. Expert systems with applications, 2017 (88): 118-131.

[2] 姚亚夫，张星．基于瞬时能量熵和SVM的滚动轴承故障诊断[J]．电子测量与仪器学报，2013，27(10)：957-962．

[3] GUO T, DENG Z M. An improved EMD method based on the multi-objective optimization and its application to fault feature extraction of rolling bearing[J]. Applied acoustics, 2017(127):46-62.

[4] 任子晖，渠虎，王翠，等．基于补充总体局部均值分解的轴承故障诊断方法[J]．郑州大学学报(工学版),2018,39(3):62-66 .

[5] HUANG Y, WANG K, ZHOU Q, et al. Feature extraction for gas metal arc welding based on EMD and time-frequency entropy[J]. International journal of advanced manufacturing technology, 2017 (2):1-10.

[6] LEI Y G, JIA F, LIN J, et al. An intelligent fault diagnosis method using unsupervised feature learning towards mechanical big data[J]. IEEE Transactions on industrial electronics, 2016, 63 (5):3137-3147.

[7] BENGIO Y. Learning deep architectures for AI[M]. Foundations and trends in machine learning, 2009, 2 (1): 1-127.

[8] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313 (5786): 504-507.

[9] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems, Curran Associates Inc. 2012: 1097-1105.

[10] JIA F, LEIY G, LIN J, et al. Deep neural networks: A promising tool for fault characteristic mining and intelligent diagnosis of rotating machinery with massive data[J]. Mechanical systems & signal processing,2016 (72):303-315.

[11] ERHAN D, BENGIO Y, COURVILLE A, et al. Why does unsupervised pre-training help deep learning?[J].Journal of machine learning research, 2010, 11 (3): 625-660.

[12] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising auto-encoders[C]∥Proceedings of the 25th International Conference on Machine Learning, ACM, 2008: 1096-1103.

[13] 郑近德，程军圣，杨宇．多尺度排列熵及其在滚动轴承故障诊断中的应用[J]．中国机械工程，2013，24(19)：2641-2646．