最小二乘回归(least squares regression,LSR)是统计学理论中一种典型的数据分析工具,通过最小化实际值和预测值的差值平方和来学习投影矩阵。基于LSR已经研究出了许多经典模型,但是,传统的LSR模型存在3个主要问题。
第1个问题是大多数LSR方法在分类中使用严格的0-1标签矩阵作为回归矩阵,使得来自不同类别的样本之间的回归响应的欧氏距离是一个常数值这样学习到的投影矩阵的判别能力较弱。Ma等[1]提出了判别最小二乘回归(discriminative least squares regression,DLSR),通过使用ε-dragging技术扩大不同类别之间的距离,但拖动过程中违背了类内距离要尽可能小的分类原则[2]。Wen等[3]提出了基于类间稀疏性的判别最小二乘回归模型(inter-class sparsity based discriminative least square regression,ICS_DLSR),使用具有行稀疏性约束的误差项来松弛严格的二元标签矩阵,学习更灵活地变换矩阵。重定向最小二乘回归(redirected least squares regression,ReLSR)[4]直接从数据中学习回归目标。Zhang等[5]提出了弹性网正则化线性回归(elastic-net regularized linear regression,ENLR)框架,在真类和假类之间对学习回归目标施加约束来扩大不同类别的边距,但是在学习过程中很容易破坏回归目标的结构。因此,Zhao等[6]提出了基于低秩类间稀疏性半灵活性目标最小二乘回归方法(low-rank inter-class sparsity based semi-flexible target least squares regression,LIS_StLSR),通过改进学习回归目标的约束,更准确地建模回归误差,并在训练过程中保留回归目标的结构。
第2个问题是基于LSR的方法对噪声的敏感性。在实际应用中,由于图像在获取、发布或传输过程中受到噪声的干扰[7],导致同一个类别的训练样本和测试样本之间的差异可能很大。对于噪声数据的分类问题,适当地降低类边距通常可以有更好的分类精度。Peng等[8]使用negative ε-dragging技术来确定不同类别之间的适当边距。赵雯等[9]提出的判别低秩表示(discriminative low-rank representation,DLRR)算法可以在遮挡的训练样本中分离出相对干净的图像。Bao等[10]提出了基于松弛局部保持回归(relaxed local preserving regression,RLPR),使用了L2,1范数替代损失函数的LF范数。Fang等[11]将原始数据分解为一个“干净”的分量加上稀疏的噪声分量,使用了一个稀疏项来补偿回归误差,这有助于在回归过程中抑制噪声的干扰。杨章静等[12]提出一种基于潜在子空间去噪的学习图像分类方法(denoising latent subspace based subspace learning,DLSSL),在原始空间和标签空间中间引进一个潜在子空间,将学习分成了2个过程,对样本先进行降噪处理,然后使用潜在子空间中的“干净”数据进行回归分类。
第3个问题是传统的LSR没有过多关注样本之间的相关性和标签的类内紧凑性,这会破坏数据的基础结构并导致过拟合问题。ICS_DLSR[3]在最小二乘回归模型中引入了类间稀疏性约束,使转换后的样本在每个类别中具有共同的稀疏结构,有效地利用样本之间的相关性。基于低秩表示(low-rank representation,LRR)的模型很容易捕获数据的全局结构。钟堃琰等[13]提出对通过ε-dragging技术所得的松弛矩阵施加低秩约束,可以提高其类内紧凑性,保证了回归标签的类内相似性。Chen等[14]将Fisher判别准则和ε-dragging技术集成到一个模型中提出了Fisher判别最小二乘回归模型(fisher discriminative least squares regression,FDLSR),Fisher准则可以提高松弛学习过程中松弛标签的类内紧凑性和相似性。在FDLSR中还证明了DLSR的本质是基于L2范式的支持向量机的松弛版本。
因此,本文提出一种基于低秩稀疏表达的弹性最小二乘回归学习(low-rank sparse representation based elastic least squares regression,LRSR-eLSR)模型。引入半灵活性的回归目标矩阵,将0-1目标松弛为更可行的变量矩阵,为不同类别的样本提供合适的边距,并且不会轻易破坏回归目标的结构。同时,为了避免结构信息的丢失,引入低秩约束来学习具有判别性的投影矩阵,捕获数据不同类别的底层结构。除此之外,引入了具有行稀疏性的误差项,可以从噪声或损坏的数据中稳健地提取特征。模型的流程如图1所示。
图1 模型框架图
Figure 1 Model frame diagram
X为来自c个类别的n个训练样本的训练集,X=[x1,x2,…,xn]∈Rd×n,其中d为每个样本的特征维数。LF范数、L2,1范数和核范数的计算分别为
(1)
(2)
‖X‖*=∑i|σi|。
(3)
式中:XT为矩阵X的转置;σ为矩阵的奇异值。
最小二乘回归的目标是学习一个将训练数据转换为二进制标签空间的最优投影矩阵,常见函数表示为
(4)
式中:W∈Rc×d为投影矩阵;β>0为正则化参数。Y为对应于数据集X的0-1标签矩阵,定义如下:如果训练样本xi来自第k个类别,则列向量yi的第k个元素为1,其余元素为0,Y=[y1,y2,…,yn]∈Rc×n。
将式(4)中的第1项看作损失函数,第2项表示广泛使用的L2正则化,用来避免过拟合。
ReLSR的核心思想是通过关注相对值,直接从数据中学习回归目标矩阵,能够提高多分类的性能。模型在学习过程中对目标矩阵进行直接优化,约束每个样本其真类和假类目标之间的差值应大于1,将其表达为一个优化问题,如式(5)所示:
(5)
式中:H为目标矩阵;en为全为1的行向量;b为偏差向量。
ReLSR在学习的过程中会对H重复更新,初始化H可以令H=Y。ReLSR的目标矩阵是通过只关注不同类别对应的相对值来学习的,以保证大多数数据点的正确分类。
LIS_StLSR与ReLSR一样,都是在学习中更新目标矩阵,但是,LIS_StLSR采用半灵活性的回归目标矩阵与低秩类间稀疏约束相结合,学习到目标矩阵可以保证对每个数据点的正确分类的要求有很大的限制并且不会破坏回归目标原有的结构,不会影响到下一次迭代训练中的回归性能。LIS_StLSR的目标函数如(6)式所示:
(6)
式中:Z为低秩表示矩阵;‖WXZi‖2,1为低秩类间约束项。
LIS_StLSR通过训练样本的“干净”表示来实现类间关系,使得共享同一标签的投影样本保持共同的稀疏结构,同时,利用训练样本的低秩表示进行类间稀疏学习。
传统的最小二乘回归模型使用了严格的二元标签矩阵作为目标矩阵。从几何学的角度,不同类别样本的距离应该要尽可能大,而同一个类别的样本之间的距离尽可能小,学习到的回归目标更具有判别力,可以增加回归模型的灵活性。不同于DLSR使用ε-dragging技术放松标签矩阵,模型通过对真假类别之间的学习目标实施约束直接从数据中学得回归目标,并引入一个稀疏误差项E以放松标签矩阵。将上述表达为一个优化问题,如式(7)所示:
(7)
式中:λ1和λ2均为正则化参数。
与0-1矩阵Y相比,目标矩阵H可以直接从数据中学习,可以更准确地测量回归误差。为了在学习过程中捕捉数据相关的底层结构,根据低秩最小化的性质,对式(7)中转换矩阵W使用LF范数,同时添加低秩约束。构建的目标函数为
(8)
式中:λ3为正则化参数;rank(·)表示矩阵的秩。
由于秩函数的离散性,式(8)是一个非凸非光滑问题,所以很难求解,根据文献[15],将秩函数替换为核范数正则化可以得到上述优化问题的凸松弛形式,对式(8)重新构造:
(9)
考虑求解问题,对式(9)中的核范数利用公式转化为LF范数进行统一求解,根据文献[5]中的Theorem 1,对于任意的矩阵W,可以得到:
(10)
由式(9)和式(10),可以得到最终的目标函数,如式(11)所示:
(11)
对目标函数(式(11))使用ADMM算法[16]进行优化求解,其增广拉格朗日函数为
(12)
式中:C为拉格朗日乘子;μ >0为罚参数。
对于式(12),在其他参数固定的情况下交替求解W、E、H、A和B。具体解决步骤如下。
步骤1 更新W。固定E、H、A和B,可以通过最小化以下目标来获得W。
(13)
式(13)中,通过将L(W)相对于W的导数设置为零,可以获得最佳W。即
=(-H-E+WX)XT+λ1W+μ(W-AB)+C=0。
(14)
由式(14)可以得到W的最优解为
W=((H+E)XT+μAB-C)。
(15)
式中:Id表示维数为d的单位向量。
步骤2 更新E。固定其他参数,令U=WX-H,可以通过最小化以下基于L2,1范数的目标函数来获得E。
(16)
式中: Ej,:和Uj,:分别表示E和U的第j行向量。
步骤3 更新A。固定其他参数,通过对A进行求导,令导数为0,可以得到A的闭式解为
A=(C+μW)BT。
(17)
步骤4 更新B。固定其他参数,通过对B进行求导,令导数为0,可以得到B的闭式解为
B=AT(C+μW)。
(18)
步骤5 更新H。令S=WX-E,公式如下所示:
(19)
将式(19)分解为n个独立的子问题求解得到H的最优解,每个子问题都对应H这一行的学习,则每个子优化问题可以表示为
(20)
式中:k表示行的真类索引;i表示在h中最大值的索引。
更新式(20)为
(21)
步骤6 更新C和μ为
(22)
式中:ρ和μmax均为数值很小的正参数。
根据上述求解过程可以得到学习的投影矩阵W,对任何测试样本y,其投影样本为Wy,使用最近邻分类器对其进行分类。
LRSR-eLSR模型的主要耗时是在逆矩阵的运算上,式(13)中的时间复杂度为O(d3);式(14)的时间复杂度为O(r3);式(15)的时间复杂度为O(r3)。对于矩阵的加、减、乘,计算成本可以忽略不计。因此,本文所提出的方法的主要计算成本是O(t(d3+2r3)),其中t表示迭代次数。
将本文模型与其他算法进行比较,包括LRDLSR[17]、FDLSR[14]、SALPL[15]、CDPL[18]、DLSR[1]、ReLSR[4]和SN-TSL[19]。所有实验均在MATLAB R2018b中进行,操作系统为Windows 10。
Extended Yale B数据集:由38人提供的2 414幅图像,每个类别有59~64个正面图像,具有不同的照明。实验中使用的所有图像都提前调整为32×32像素。然后从每个类随机抽取10、15、20、25张图像作为训练集,其余样本作为测试集。
LFW数据集:包含了1 680个在无约束条件下拍摄对象的13 000多张人脸图像。在这个实验中,使用了一个包含86个人共1 251张图像的子集,每个受试者只有10~20张图像。在实验中,将图像尺寸调整为32×32像素,随机选择每个受试者的5、6、7、8张图像作为训练样本。
COIL-20数据集:包含了20个物体,每个物体有72个灰色图像,这些图像是从不同方向拍摄的。在实验中,对每个图像进行下采样,使其具有32×32像素,从每个类随机抽取10、15、20、25张图像作为训练集。
MNIST数据集:一个包含0~9的手写数字数据集,该数据集包含60 000个用于训练和10 000个用于测试的图像,图像尺寸为28×28像素。在实验中,从每个类随机抽取40、60、80和100张图像作为训练集。
实验重复执行10次并记录平均准确率。对于二分类问题,样本将根据真实类别与学习器预测类别组合为4种情况,如表1所示。
表1 二分类混淆矩阵表
Table 1 Binary confusion matrix table
真实类别预测类别正类反类正类TP(真正类)FN(假反类)反类FP(假正类)TN(真反类)
准确率Acc是一个分类性能的检测指标,表示在所有的样本中被分类模型预测为正确的样本数量所占的比例,如式(23)所示[20]:
(23)
式中:TP表示待检测样本属于正类并且分类模型也将待检测样本预测为正类;TN表示待检测样本属于反类并且分类模型也将待检测样本预测为反类;FP表示待检测样属于反类但是分类模型将待检测样本预测为正类;FN表示待检测样本属于正类但是分类模型将待检测样本预测为反类。其中FP和FN都是分类模型预测不正确的情况。
表2为Extended Yale B人脸数据集上不同方法对比的结果。显然,在人脸数据集上,当样本数量为15、20、25时,本文算法取得了最佳的分类结果。
表2 Extended Yale B上不同方法的平均分类准确率
Table 2 Average classification accuracy of different methods on Extended Yale B
算法Acc/%样本数10样本数15样本数20样本数25LRDLSR83.3088.3491.7793.52FDLSR89.7892.0694.3895.74SALPL73.8584.8689.7091.72CDPL74.6582.1085.78 87.58DLSR85.9989.7792.2294.58ReLSR83.7788.7491.0193.32SN-TSL81.1988.9793.0495.12LRSR-eLSR88.6592.1395.0396.47
表3为LFW人脸数据集上不同方法的对比结果。由于LFW数据集是一个很难进行图像分类的数据集,使用不同分类方法获得的平均准确率都相对不高,当样本数量为6、7、8时,LRSR-eLSR的性能较好。
表3 LFW数据集上不同方法的平均分类准确率
Table 3 Average classification accuracy of different methods on LFW
算法Acc/%样本数5样本数6样本数7样本数8LRDLSR27.2029.5130.6233.23FDLSR32.8134.2434.4234.83SALPL23.9526.8628.7731.01CDPL23.5425.1627.7730.55DLSR28.6429.5230.7131.39ReLSR25.6827.7029.7233.20SN-TSL27.8328.2228.2729.61LRSR-eLSR32.1234.4234.5336.93
表4为在COIL-20物体数据集上不同方法对比的结果。由结果可以分析,提出的模型获得了比其他方法好的分类结果。因此,LRSR-eLSR在解决客观识别任务方面有很大的潜力,这证明了模型对于对象分类任务的有效性。
表4 COIL-20上不同方法的平均分类准确率
Table 4 Average classification accuracy of different methods on COIL-20
算法Acc/%样本数10样本数15样本数20样本数25LRDLSR91.5093.9296.0697.69FDLSR92.5395.6797.1497.84SALPL91.3495.8297.3298.07CDPL90.4294.6395.9097.06DLSR92.1594.7796.5397.33ReLSR89.1293.2595.5996.63SN-TSL90.3492.5994.5196.41LRSR-eLSR92.6796.4298.2098.38
表5为在MNIST手写数字数据集上不同方法对比的结果。可以发现,与其他方法相比,LRSR-eLSR可以提供更好的结果。
表5 MNIST上不同方法的平均分类准确率
Table 5 Average classification accuracy of different methods on MNIST
算法Acc/%样本数40样本数60样本数80样本数100LRDLSR79.5780.5980.0181.16FDLSR77.9678.2678.7880.53CDPL72.0272.3973.2275.22DLSR80.8180.9280.1281.99SN-TSL77.4079.6079.0880.87LRSR-eLSR81.3983.0183.6084.76
在Extended Yale B、LFW和COIL-20这3个数据集上,对比基于松弛标签方法的DLSR和ReLSR,LRSR-eLSR可以学习更具判别力的变换。因为DLSR和ReLSR只关注于扩大类间距,而不关心缩小类内距离。与DLSR和ReLSR不同,本文方法通过引入半灵活性的回归目标H,使得模型在数据中直接学习矩阵。
在本文方法中,参数λ1、λ2和λ3需要进行灵敏度分析,用于平衡相应约束项。λ1用于避免投影W的平凡解;λ2用于松弛标签矩阵,以自适应地拟合变换后的数据;λ3保证了数据底层结构。首先,定义一个候选集{10-5,10-4,10-3,10-2,10-1,100,101,102};其次,在Extended Yale B数据集上,分析LRSR-eLSR算法的λ1、λ2、λ3对Acc的影响。
实验采用控制变量法确定λ1、λ2、λ3的最佳参数组合。例如,为了确定λ1的敏感度,先令λ2=1,λ3=1,得出不同λ1的值对Acc的影响。为了确定不同参数组合的最优值,将其中一个参数固定为之前单个参数选择阶段的最优值,并使用网格搜索算法观察另外2个参数在候选集范围内变化时Acc的变化。
图2为在Extended Yale B数据集上调整单个参数时LRSR-eLSR的Acc曲线。图3为在Extended Yale B数据集上不同参数组合时LRSR-eLSR的Acc曲线。由图2、3可知,λ1稳定性差,其最大值为1,说明不需要对模型过多施加避免平凡解的项。λ3比较稳健,其值对模型的Acc影响较小。因此,首先固定参数λ3的值,通过选择λ1和λ2的不同组合计算LRSR-eLSR模型的Acc,可以获得这2个参数的最佳组合;其次,采用相同的方法从参数λ3的候选参数集中找到最佳值;最后,应用λ1、λ2、λ3的最佳参数组合运算10次,得到平均分类准确率Acc。实验发现,当参数λ1∈[10-1,101]、λ2∈[100,102]时,LRSR-eLSR模型性能较好。
图2 调整单个参数时LRSR-eLSR的Acc
Figure 2 Acc of LRSR-eLSR when adjusting a single parameter
图3 不同参数组合时LRSR-eLSR的Acc
Figure 3 Acc of LRSR-eLSR with different parameter combinations
为了评估所提出模型中每一项的有效性,从Extended Yale B、LFW、COIL-20和MNIST数据集中分别选取25、8、25、100个样本作为训练样本,其余的样本作为测试样本进行消融实验。将所有实验重复10次,取平均值,结果如图4所示。其中,LRSR-eLSR(λ1)表示设置模型中的λ1=0,即模型没有矩阵W的LF范数项;LRSR-eLSR(λ2)表示设置模型中的λ2=0,即模型中少了系数误差项E;LRSR-eLSR(λ3)表示设置模型中的λ3=0,即模型少了低秩约束项。
图4 LRSR-eLSR在4个数据集上的消融实验结果对比
Figure 4 Comparison of ablation study results of LRSR-eLSR on four databases
由图4可知,LRSR-eLSR(λ1)和LRSR-eLSR(λ3)的性能比LRSR-eLSR差得多。这表明所提出的LRSR-eLSR极大地受益于矩阵W的LF范数项和低秩约束项。LF范数具有防止过拟合的作用,追求低秩回归标签有助于学习更多的判别投影,从而显著提高最终分类性能。
本文提出了一种基于低秩稀疏表达的弹性最小二乘回归学习模型(LRSR-eLSR)。该模型通过对回归矩阵增加弹性约束扩大不同类别之间的差值,以构建放松的标签矩阵。此外,对转换矩阵添加了稀疏性约束和低秩约束,使回归目标具有稀疏性和低秩性,在保持数据的低秩结构的同时防止过拟合。在不同任务的公共数据集上的实验结果表明,相对于现有的最小二乘回归变体的方法,本文方法具有优异的性能。
[1] MA J J, ZHOU S S. Discriminative least squares regression for multiclass classification based on within-class scatter minimization[J]. Applied Intelligence, 2022, 52(1): 622-635.
[2] 蔡雨虹. 鉴别性稀疏与低秩表示的算法研究[D]. 无锡: 江南大学, 2021.
CAI Y H. Algorithm research on discriminative sparse and low-rank representation[D]. Wuxi: Jiangnan University, 2021.
[3] WEN J, XU Y, LI Z Y, et al. Inter-class sparsity based discriminative least square regression[J]. Neural Networks, 2018, 102: 36-47.
[4] ZHANG X Y, WANG L F, XIANG S M, et al. Retargeted least squares regression algorithm[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(9): 2206-2213.
[5] ZHANG Z, LAI Z H, XU Y, et al. Discriminative elastic-net regularized linear regression[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2017, 26(3): 1466-1481.
[6] ZHAO S P, WU J G, ZHANG B, et al. Low-rank inter-class sparsity based semi-flexible target least squares regression for feature representation[J]. Pattern Recognition, 2022, 123: 108346.
[7] 朱文生, 何显文. 结合加权低秩表示和L1范数的图像混合去噪[J]. 赣南师范大学学报, 2022, 43(3): 116-120.
ZHU W S, HE X W. Image hybrid denoising via weighted low-rank representation and L1-norm[J]. Journal of Gannan Normal University, 2022, 43(3): 116-120.
[8] PENG Y L, ZHANG L, LIU S G, et al. Kernel negative ε dragging linear regression for pattern classification[J]. Complexity, 2017, 2017: 1-14.
[9] 赵雯, 吴小俊. 基于鉴别性低秩表示及字典学习的鲁棒人脸识别算法[J]. 计算机应用研究, 2017, 34(10): 3157-3161.
ZHAO W, WU X J. Robust face recognition of discriminative low-rank representation with dictionary learning[J]. Application Research of Computers, 2017, 34(10): 3157-3161.
[10] BAO J Q, LAI Z H, LI X C. Relaxed local preserving regression for image feature extraction[J].Multimedia Tools and Applications, 2021, 80(3): 3729-3748.
[11] FANG X Z, TENG S H, LAI Z H, et al. Robust latent subspace learning for image classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2502-2515.
[12] 杨章静, 王文博, 黄璞, 等. 基于潜子空间去噪的子空间学习图像分类方法[J]. 计算机科学与探索, 2021, 15(12): 2374-2389.
YANG Z J, WANG W B, HUANG P, et al. Denoising latent subspace based subspace learning for image classification[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(12): 2374-2389.
[13] 钟堃琰,刘惊雷.基于低秩类间稀疏判别最小二乘回归的图像分类[J].山东大学学报(理学版), 2022, 57(7):1-13.
ZHONG K Y, LIU J L. Image classification based on low-rank inter-class sparsity discriminant least squares regression[J]. Journal of Shandong University(Natural Science), 2022, 57(7):1-13.
[14] CHEN Z, WU X J, KITTLER J. Fisher discriminative least squares regression for image classification[EB/OL]. (2019-07-11)[2022-10-05].https:∥arxiv.org/abs/1903.07833.
[15] FANG X Z, HAN N, WU J G, et al. Approximate low-rank projection learning for feature extraction[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(11): 5228-5241.
[16] 王杰, 李胜光, 宋一帆, 等. 图像去模糊的自适应交替方向乘子重叠组稀疏方法[J]. 郑州大学学报(工学版), 2018, 39(5): 52-57, 78.
WANG J, LI S G, SONG Y F, et al. Image deblurring using adaptive alternate direction multiplier overlapping group sparsity method[J]. Journal of Zhengzhou University (Engineering Science), 2018, 39(5): 52-57, 78.
[17] CHEN Z, WU X J, KITTLER J. Low-rank discriminative least squares regression for image classification[J]. Signal Processing, 2020, 173: 107485.
[18] MENG M, LAN M C, YU J, et al. Constrained discriminative projection learning for image classification[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2020, 29: 186-198.
[19] CHEN Z, WU X J, CAI Y H, et al. Sparse non-negative transition subspace learning for image classification[J]. Signal Processing, 2021, 183: 107988.
[20] 姚欣, 邢砾云, 辛平. 基于小波特征提取与深度学习的微电网故障诊断与分类方法[J]. 智慧电力, 2021, 49(12): 17-24.
YAO X, XING L Y, XIN P. Fault diagnosis and classification of microgrid based on wavelet feature extraction and deep learning[J]. Smart Power, 2021, 49(12): 17-24.