基于双阶段特征提取网络的ECG降噪分类算法

心血管疾病一直严重威胁着人类的生命健康,其造成的死亡人数占全球死亡人数的31%以上[1]。而心源性猝死占心脏病死亡的一半,其中有80%以上与心律失常密切相关[2]。目前心电图(ECG)广泛应用于心律失常检测中,其利用多组导联捕捉心脏不同位置的电势,然后医生通过观察心电图不同波形或节律的变化分析患者心血管系统的病理状态[3],进而诊断患各种心脏疾病的风险,例如心肌缺血、中风等[4]。利用深度学习技术对心电信号进行自动识别和准确分类,可以为医生提供重要的帮助。准确的心律失常检测是机器辅助诊断和预防治疗心脏疾病的基础。在过去的几十年里,利用心电信号自动检测心律失常已得到广泛研究。

传统的心电信号分类方法一般基于特征提取,需要专家根据原始心电数据设计“专家特征”,然后通过部署的决策规则或其他机器学习方法如支持向量机(SVM)[5]、决策树[6]或KNN[7]处理分析后生成最终检测结果。然而,由于个体ECG采集过程中受环境因素影响产生的不可避免的噪声,以及ECG波形在不同个体之间的差异,均阻碍和限制了特征的设计,导致此类传统方法的性能逐渐达到了极限[8]。传统的心电信号处理及机器学习方法大多局限于解决相对简单的问题,而深度神经网络可以从大规模数据集中学习数据特征,进而解决更加复杂的问题。

研究表明,深度学习方法在心电图自动分类诊断方面已经取得了卓越表现,在对心电信号分类时,不同的深度学习神经网络架构也具有不同的表现。Hannun等[9]提出了一种基于单导联心电信号的端到端的34层CNN网络模型,该模型对14种心律失常进行分类时,在召回率和精确度两个方面均超过心脏病专家的平均水平。Ribeiro等[10]提出了一个基于4层ResNet结构的DNN网络,在12导联心电图的6类异常检测任务中,F1评分在80%以上,特异性在99%以上,均优于心内科住院医生的平均水平。王文刀等[11]提出了一种基于双向LSTM的网络,在多个数据集上的分类准确率均有提高。

最新研究表明,相较于单一网络,采用结合卷积神经网络(CNN)[12]和递归神经网络(RNN)[13]模块的网络架构处理标准12导联心电信号时能获得更优异的性能[14-15]。例如,Yao等[16]提出了一种时间增量卷积神经网络(TI-CNN),该网络基于VGGNET的CNN和LSTM层结合,利用循环单元实现了CNN模型输入长度的灵活性。Chen等[17]提出了一种端到端多通道多尺度的DNN模型,结合了相互并联的3路ResNet模块、LSTM以及注意力模块,在多分类任务中表现出较高的准确率。Ye等[18]在结合CNN与LSTM的基础上,利用极限梯度对特征进行融合,在9类异常分类任务中F1得分达到了0.825。

值得注意的是,在ECG信号采集中,受外界环境因素影响会不可避免地混入噪声。一般研究工作在网络训练前都会对原始数据集中的心电信号进行降噪预处理,通常利用常规的小波变换或者数字滤波器等实现。如何在有效去除噪声的同时不影响ECG中的特征信息,从而实现更好的分类效果是研究者面临的一个挑战。

Zhao等[19]在2020年提出一种结合软阈值化[20]与注意力机制的残差收缩网络模块,用于处理带有噪声的机械振动信号。本文针对心电信号中同时含有时空特征的特点,对残差收缩网络模块进行了改进,并以其来提取信号中的空间特征,使用LSTM与注意力模块结合来提取信号中的时间特征,提出了一个端到端的自动降噪分类模型。通过在CPSC2018数据集上进行的大量实验结果表明,本文提出的模型在对标准12导联心电信号进行处理时,具有较好的噪声抑制效果和较高的分类准确率。

1 算法设计

常规的ECG信号分类诊断流程如图1所示,其中核心部分为信号预处理与特征提取两个阶段。

1.1 整体结构

为了进一步提升心电信号分类任务准确度,并在对信号进行有效去噪的同时预防可能出现的特征丢失问题,本文采用改进的深度残差收缩网络将数据预处理阶段中的降噪处理与空间特征提取阶段耦合,并结合长短期记忆网络和注意力机制提取时间特征,提出了一个基于双阶段特征提取网络的心电信号降噪分类算法。该算法整体架构如图2所示,其以端到端的方式,将标准12导联心电信号作为输入,产生的分类诊断结果作为输出,具有如下主要优点。

(1)改进的残差收缩网络中包含的一维卷积层可对输入的心电信号进行有效的空间特征提取。

(2)深度融合的自注意力网络与软阈值化去噪能够根据每条数据的不同情况自适应地模拟数字滤波器,对数据进行降噪处理。

(3)残差收缩网络采用残差结构,通过跨层连接有效避免梯度消失,同时加速网络训练。

(4)LSTM和注意力机制可以提取心电信号中的时间特征,并更加关注特征中的关键信息。

具体来说,所提算法模型的输入层由12个通道组成,分别对应标准心电信号的12导联信号。其中6个导联(Ⅰ、Ⅱ、Ⅲ、aVL、aVR和aVF)被称为“肢体导联”,放置在患者的胳膊和腿上。另外6个导联(V1、V2、V3、V4、V5和V6)被称为“心前导联”,放置在患者的胸前。这些导联采集到的不同信息经过输入层之后,进入卷积层进行卷积运算。卷积处理后生成的特征图谱经过批次标准化后,被送入堆叠的7层改进的残差收缩网络模块,由于残差网络模块结构较为复杂,跨层连接路径可以把浅层信息传递到更深层,从而有助于减小网络训练难度并加快网络训练速度。

经过残差收缩网络模块处理后,特征图谱经过一次全局平均池化,然后被送入由双层的LSTM与注意力机制结合组成的时间特征提取模块。LSTM层用来跟踪输入序列中的长期依赖关系,而注意力模块则更多地关注信号中的关键信息。为了防止过拟合,本文在DNN模型的不同位置添加了Dropout层。批次标准化(BN)层用于规范化每个批次的特征图谱,有助于神经网络更好地学习数据中的规律。经过时间特征处理模块后,使用3层全连接层来融合前面两个模块提取到的特征信息,然后通过Sigmoid激活函数输出9种类别的概率矩阵。

在实验阶段,通过评估从训练集和测试集中分离出的验证集进行了大量的实验来调整设计DNN模型中网络模块的层数以及超参数大小,以达到最优的模型性能。网络的详细参数如表1所示。

1.2 空间特征提取阶段

心电信号输入后首先经过空间特征提取阶段来对心电信号进行空间特征提取以及降噪。本文所提出的算法中空间特征提取阶段主要由堆叠的残差收缩网络模块组成。

残差收缩网络是残差网络(ResNet)的一种变体,最初被提出应用于机械故障检测[19]。该网络实际是一种模拟滤波器,其中的滤波器结构与参数是由注意力模块根据实际含噪数据在训练时自动获取的。残差收缩网络融合了注意力机制与软阈值化去噪方法,并将软阈值化插入到深层结构中作为非线性表换层,用以消除信号中可能存在的噪声。由于网络所处理的机械振动信号都在大于0的范围内连续波动,ReLU激活函数由于其正向线性的特点,可以满足计算要求。然而,由于心电信号与机械振动信号的不同之处在于心电信号不同波段的电压值有正有负,所以ReLU激活函数并不适用于处理心电信号。所以本文将激活函数改进为LeakyReLU,以防止计算过程中负值信号被置为0从而丢失特征信息。本文采用的残差收缩网络模块详细结构如图3所示。

网络主路径由两个一维卷积层组成,每个一维卷积层后都带有BN层和激活函数层,用于加强网络正则化,防止过拟合。在经过两层卷积层之后,输出的路径会分为两条:一条依旧作为主路径,另一条会进入注意力机制子网络,用于学习合适的阈值来去除信号噪声。然后,根据主路径的输出与注意力机制子网络输出的阈值进行软阈值化操作,将得到的特征图谱与ResNet结构的跨层连接数据相加,得到此网络模块最终输出的特征图谱。

软阈值化[19]是一种常用的信号处理方法,其原理如式(1)与图4所示。软阈值化的计算步骤描述如下:首先需要设置阈值,其取值范围不能大于输出特征值的绝对值的最大值。然后将小于这个阈值的特征值置为0,并对大于阈值的特征值进行缩放,使其趋近于0。而这个阈值是由网络中的自注意力机制根据输入信息的特征来决定的。自注意力机制能够自动计算和学习输入特征对输出特征的重要程度,并得到一组用于简化特征信息的阈值,然后通过这些阈值可以过滤掉特征信息中与输出无关的部分。

式中:

为需要设定的阈值;x表示输入的特征值;y表示经软阈值化后的输出特征值。

1.3 时间特征提取阶段

心电信号经空间特征提取阶段处理后,紧接着进入由长短期记忆网络(LSTM)与注意力机制组成的时间特征提取阶段。

空间特征提取阶段输出的信息经过批标准化与一次全局平均池化。然后,特征图谱被送入两层的LSTM中,以提取其中的时间特征信息。LSTM是循环神经网络(RNN)的改进版本,在捕获时间序列的长期依赖性方面具有更好的表现。LSTM单元读取含有时间特征的序列输入,更新状态向量,然后根据读取到的内容和存储的内容生成输出。也可以从另一个角度来理解LSTM的行为:将LSTM单元看作是在时间轴上不断复制自身,并通过时间轴单向连接,在不同的时间节点上传递信息。式(2)～(5)可以总结LSTM的行为。

式中:σ表示机器学习任务中广泛应用的Sigmoid激活函数;xt表示t时刻的输入;ht-1表示t时刻的输出;Ct表示t时刻的状态;ft表示t时刻LSTM单元中遗忘门与输入门的输出;*表示哈达玛乘积。图5展示了LSTM单元的内部结构以及信息流。在本文提出的DNN模型中,第一个LSTM单元的输入通道大小为256,第二个LSTM单元的输出通道大小为128,因此,所使用的LSTM单元也起到了降低特征维度的作用。

经LSTM提取特征后,生成的特征图被送入注意力模块,本文采用的注意力机制与文献[17]中所使用的机制类似,激活函数采用LeakyReLU,其中alpha=0.3。通过注意力机制,输入的信号被划分为若干个区域,注意力机制负责分别评估这些区域在异常判定中的重要性。通过添加注意力机制,整体网络可以更好地学习输入信号中的关键部分(如P波、QRS波、t波等)中的有效信息,从而对判定心电信号是否异常起到帮助。

经注意力模块处理后,提取到的特征图谱经一个BN层后被传入全连接层,全连接层会融合前两个特征提取阶段得到的特征信息,最终经过Sigmoid函数输出,得到9种类别的预测概率分布。

2 实验与分析

2.1 数据集

本文所使用的数据集来自于2018中国生理信号挑战赛(CPSC2018)[21]。如表2所示,此数据集包含了共9 831条标准12导联心电信号,这些记录分别搜集于11家不同医院。其中,训练数据集6 877条,分别来自于3 699名男性和3 178名女性。此外,还有2 954条记录作为测试集,而测试集是非公开的,只用于比赛评分。数据集中的信号采样频率为500 Hz,每条记录的长度在6～60 s内变化。除了包含心电信号以外,每条记录还包含了患者的年龄和性别。在该数据集中记录了正常心律和8种类型的心律失常,分别是正常(Normal)、心房纤颤(AF)、一级房室传导阻滞(Ⅰ-AVB)、左束支传导阻滞(LBBB)、右束支传导阻滞(RBBB)、早发性心房收缩(PAC)、室性早搏(PVC)、ST段压低(STD)和ST段抬高(STE)。其中,大部分记录只有一个标签,少量记录因为患者同时患有多种疾病有两个或3个标签,这种多标签类型的记录在训练集和测试集中分别有477条和203条。

2.2 评价指标

在本文以及类似的研究中,典型的分类性能评价指标包括精确度Precision、召回率Recall和F1分数。其具体的定义如式(6)～(8)所示:

在多分类问题中,针对某个类别,以真阳性(TP)表示正确分类为该类别的样本数量,真阴性(TN)表示不属于该类别的样本被正确归类数量,假阴性(FN)表示属于该类别的样本被错误地分类到其他类别的数量,假阳性(FP)表示在该类别中被错误地分类的样本数量。在本文实验中使用类间的平均值来评估模型的整体性能。F1分数是衡量准确率和召回率的综合评估指标。在上述指标中,F1分数被主要用来评估异常识别效果,这是该类分类任务中最为重要的评估指标。此外,针对数据集中的部分多标签数据,在验证其预测结果时,若预测结果在原有标签的集中则视为预测正确,不在其集中则视为预测错误。

2.3 实验设置

本文所提出的算法使用Pytorch 1.10.0框架实现,实验在AMD Ryzen 7 5800 H with Radeon Graphics(CPU)、32 GB内存以及NVIDIA Geforce RTX3070超级图形处理单元(GPU)的计算机上进行。为了更好地验证模型的性能,本文采用了训练/验证相互独立的测试策略,详细的数据划分如图6所示。此外,为了实现10倍交叉验证实验,本文将训练数据集随机分为了10份,轮流使用9份与另外一份数据作为训练数据与测试数据。经过训练与验证的迭代后,在验证集上具有最高性能的模型作为最终模型用于最终的测试。

本文中采用了Adam优化器,并使用了默认参数作为初始参数。默认学习率为0.000 1,损失函数采用二元交叉熵。Adam优化器具有易于实现、计算效率高、内存需求小等特点,非常适用于处理数据和参数量较大的问题。此外,为了提高训练效果,本文设置早停策略的耐心值为80,即如果模型在验证集上80个epoch没有进展则停止训练。

2.4 性能分析

为了评价本文所提出模型的性能,本文选择了几种常见的网络模型以及目前较为先进的心电信号分类算法作为参考。在相似的条件下对分类算法进行实验,然后在测试集上从精确度、召回率和F1分数3个维度比较其分类性能。

本文选用了两种常见的网络模型作为参考,分别为VGGNet[22]与ResNet[23]。VGGNet和ResNet都是经典的用于处理图像或信号的卷积神经网络架构。VGGNet基于一维卷积,在许多信号处理任务中被广泛应用。在本文的实验中,选择了具有16个一维卷积层的VGGNet作为对照组。而ResNet中采用了残差结构,并使用了跳跃连接来缓解深度神经网络中因为增加网络层数而导致的梯度消失问题。在实验中,本文设计了一个具有7层残差网络模块的ResNet模型来作为另一个对照组,其与本文所提模型在各个节点都具有相同的输入输出规格。表3为不同分类算法在CPSC2018数据集上的实验结果。

除了经典的常见网络模型之外,本文还选取了此领域先进算法作为对照组。其中包括He等[23]、Yao等[16]提出的时间增量卷积神经网络(ATI-CNN),Chen等[17]提出的一种结合了并联的三路ResNet模块与LSTM以及注意力模块的深度学习模型,Ye等[18]结合了CNN与LSTM并利用了极限梯度所提出的深度学习模型XGB-Net,以及Dong等[24]提出的一种多分支信号融合网络MBSF-Net。在表3中具体给出了这6种参考模型以及本文所提出方法在3个性能指标上的表现结果。从表3中可以看出,本文所提出的基于改进的残差收缩网络的深度学习模型在两个指标上均优于其他参考模型。与Yao等[16]与Chen等[17]的方法相比,本文所提出的方法获得了3.5百分点与2.5百分点的性能增益。相较于Ye等[18]和Dong等[24]所提出的方法,本文的方法使得F1评分分别提升了1.9百分点与1.4百分点。以上结果充分证明了本文所提算法模型对心电信号较好的分类性能。

2.5 抗噪性能

在12导联标准心电信号的采集过程中,由于工频干扰、肌电干扰和基线漂移等因素,采集到的信号中将不可避免地混入噪声,并会对深度学习算法的分类性能造成不可忽视的影响。为了验证本文所提出模型对于含噪心电信号的抗噪能力,本文在CPSC2018数据集的ECG心电信号中,添加了标准差为0.5、中心值为0、信噪比为6 dB的加性高斯噪声作为数据,依旧选用与所提出模型具有相同规格的VGGNet以及ResNet作为实验对照组。其在含噪声数据集上的分类结果如表4所示。

从表4中可以看出,数据集中数据含有的噪声对VGGNet模型影响最大,F1分数相比于原规模不含噪数据集(原F1=0.758)下降了6.9百分点;对ResNet模型影响其次,F1分数相较原规模不含噪声数据集(原F1=0.785)下降了5.6百分点;而对本文所提模型影响最小,F1分数相较于原规模不含噪数据集(原F1=0.854)下降了2.6百分点。不同的网络模型对于噪声的鲁棒性差异导致了在含噪数据集上的不同表现。由于VGGNet具有一维卷积网络结构较为简单,导致其提取含噪数据中空间特征能力较弱。而ResNet由于其跨层连接的结构,使得可以传达更深层的语义信息,因此在含噪声信号中提取特征的能力强于普通的卷积神经网络。而本文所提出的基于双阶段特征提取网络的ECG降噪分类算法,不仅存在能够对提取深层信息起到作用的ResNet结构的跨层链接,更重要的是其中包含的结合了自注意力机制与软阈值化去噪方法的残差收缩网络模块,能够在处理含噪心电信号的过程中充分消除噪声,并提取特征图谱中重要的特征信息,从而有效提升整体网络对于噪声的鲁棒性。

3 结论

本文提出了一种基于双阶段特征提取网络的心电信号降噪分类算法。此算法通过3个步骤从输入的标准12导联心电信号中提取特征信息:第1步通过改进的深度残差收缩网络模块有效提取心电信号中的空间特征并对心电信号进行降噪处理;第2步通过双层的LSTM网络与注意力机制模块,有效提取心电信号中的时间特征;第3步通过全连接网络层融合提取到的空间特征与时间特征,并输出9个类别的概率预测分布。这些具有不同功能的网络模块被合并到一个统一的神经网络结构中,形成一个新颖的端到端的心电信号分类深度学习算法。本文提出的模型在这种网络架构下,可以对心电信号进行高度耦合的有效降噪以及识别分类。

在CPSC2018数据集上,该模型在心电信号分类任务上表现出了优异的性能。由于提出的算法模型将心电信号去噪以及心电信号分类高度整合,非常适用于移动端家庭场景的需要。因此,下一步将继续探究此算法用于心律失常检测的轻量级网络及其应用。除此之外,本文所提出的网络也为处理其他含噪生理信号领域提供了参考。

[1] ROTH G A, ABATE D, ABATE K H. Global, regional, and national age-sex-specific mortality for 282 causes of death in 195 countries and territories, 1980-2017: a systematic analysis for the Global Burden of Disease Study 2017[J].Lancet, 2018, 392(10159): 1736-1788.

[2] ROBERT S K,COLLEEN E C. Basis and treatment of cardiac arrhythmias[M].Berlin:Springer,2006.

[3] MIEGHEM C, SABBE M, KNOCKAERT D. The clinical value of the ECG in noncardiac conditions[J].Chest, 2004, 125(4): 1561-1576.

[4] STAMKOPOULOS T, DIAMANTARAS K, MAGLAVERAS N, et al. ECG analysis using nonlinear PCA neural networks for ischemia detection[J].IEEE Transactions on Signal Processing, 1998, 46(11): 3058-3067.

[5] 朱凌云. 移动心电监护系统ECG信号的智能检测与分析方法研究[D].重庆: 重庆大学, 2003. ZHU L Y. The algorithms research of ECG signals intelligent detection &analysis for mobile cardiac telemonitoring system[D].Chongqing: Chongqing University, 2003.

[6] PERLMAN O, KATZ A, AMIT G, et al. Supraventricular tachycardia classification in the 12-lead ECG using atrial waves detection and a clinically based tree scheme[J].IEEE Journal of Biomedical and Health Informatics, 2016, 20(6): 1513-1520.

[7] 李润川, 张行进, 陈刚, 等. 基于多特征融合的心搏类型识别研究[J].郑州大学学报(工学版), 2021, 42(4): 7-12.LI R C, ZHANG X J, CHEN G, et al. Research on heartbeat type recognition based on multi-feature fusion[J].Journal of Zhengzhou University (Engineering Science), 2021, 42(4): 7-12.

[8] SCHL

PFER J, WELLENS H J. Computer-interpreted electrocardiograms: benefits and limitations[J].Journal of the American College of Cardiology, 2017, 70(9): 1183-1192.

[9] HANNUN A Y, RAJPURKAR P, HAGHPANAHI M, et al. Cardiologist-level arrhythmia detection and classification in ambulatory electrocardiograms using a deep neural network[J].Nature Medicine, 2019, 25: 65-69.

[10] RIBEIRO A H, RIBEIRO M H, PAIX width=11,height=11,dpi=110

O G M M, et al. Automatic diagnosis of the 12-lead ECG using a deep neural network[J].Nature Communications, 2020, 11: 1760.

[11] 王文刀, 王润泽, 魏鑫磊, 等. 基于堆叠式双向LSTM的心电图自动识别算法[J].计算机科学, 2020, 47(7): 118-124.WANG W D, WANG R Z, WEI X L, et al. Automatic recognition of ECG based on stacked bidirectional LSTM[J].Computer Science, 2020, 47(7): 118-124.

[12] FUKUSHIMA K. Neocognitron: a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics, 1980, 36(4): 193-202.

[13] GOLLER C, KUCHLER A. Learning task-dependent distributed representations by backpropagation through structure[C]∥Proceedings of International Conference on Neural Networks. Piscataway: IEEE, 1996: 347-352.

[14] LIU F, ZHOU X S, CAO J L, et al. A LSTM and CNN based assemble neural network framework for arrhythmias classification[C]∥ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2019: 1303-1307.

[15] SHAKER A M, TANTAWI M, SHEDEED H A, et al. Generalization of convolutional neural networks for ECG classification using generative adversarial networks[J].IEEE Access, 2020, 8: 35592-35605.

[16] YAO Q H, FAN X M, CAI Y P, et al. Time-incremental convolutional neural network for arrhythmia detection in varied-length electrocardiogram[C]∥2018 IEEE 16th Intl Conf on Dependable, Autonomic and Secure Computing, 16th Intl Conf on Pervasive Intelligence and Computing, 4th Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress.Piscataway: IEEE, 2018: 754-761.

[17] CHEN C Y, LIN Y T, LEE S J, et al. Automated ECG classification based on 1D deep learning network[J].Methods, 2022, 202: 127-135.

[18] YE X H, HUANG Y Q, LU Q. Automatic multichannel electrocardiogram record classification using XGBoost fusion model[J].Frontiers in Physiology,2022,13: 840011.

[19] ZHAO M H, ZHONG S S, FU X Y, et al. Deep residual shrinkage networks for fault diagnosis[J].IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.

[20] DONOHO D L. De-noising by soft-thresholding[J].IEEE Transactions on Information Theory, 1995, 41(3): 613-627.

[21] The China physiological signal challenge 2018. [EB/OL].(2018-10-17)[2024-02-10].https:∥2018.icbeb.org/Challenge.html.

[22] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04)[2024-02-10].https:∥doi.org/10.48550/arXiv.1409.1556.

[23] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[24] DONG Y F, CAI W Q, QIU L S, et al. Detection of arrhythmia in 12-lead varied-length ECG using multi-branch signal fusion network[J].Physiological Measurement, 2022, 43(10): 105009.