面向实例依赖标签噪声学习的动态混合噪声识别方法

姜高霞1,张 尧1,王文剑1,2

(1.山西大学 计算机与信息技术学院,山西 太原 030006;2.数据智能与认知计算山西省重点实验室,山西 太原 030006)

摘 要:在实例依赖标签噪声IDN学习中,半监督方法能缓解噪声干扰并利用特征信息,但其效果依赖于准确的噪声识别,易受识别方法的影响。为解决噪声识别不准确的问题,设计了鲁棒特征重心以弱化不可靠数据的干扰,并提出了一种基于特征相似度的分布自适应动态混合模型DMM,通过提取特征相似度、结合高斯混合模型GMM与Beta混合模型BMM拟合分布并动态融合,实现更准确的噪声识别,最终结合半监督策略完成训练。在人工加噪的CIFAR-10/100数据集上,所提方法均达到了最优性能。在真实世界噪声数据集Animal-10N和Clothing1M上的最高分类准确率分别为84.21%和75.80%,优于现有代表性方法,验证了所提方法在实例依赖标签噪声学习任务中的有效性与适用性。

关键词:实例依赖噪声; 标签噪声学习; 类重心; 动态混合模型; 半监督学习

真实标注数据集通常含噪声[1],深度模型往往会过度拟合数据中的噪声标签[2],从而导致模型泛化性能下降。更糟糕的是,人类标注中嵌入的标签噪声通常依赖于实例特征,被称为实例依赖噪声(instance-dependent noise,IDN)。Chen等[3]对真实世界数据集Clothing1M进行了理论假设检验,并证明与实例无关的噪声发生的概率低于10-21 250,从而证实标签噪声应当依赖于实例特征。此后出现很多学者认可实例依赖噪声的普遍性并对其展开针对性研究[1,3-5]。相较于传统基于样本类别之间概率转移矩阵所产生的类条件噪声(class conditional noise,CCN),这种结合样本特征生成的噪声在训练中更易被深度神经网络拟合,给模型训练带来了额外的挑战[3]。利用含有实例依赖标签噪声的数据进行学习仍然是深度学习领域的一项重要且富有挑战性的任务。

噪声标签学习(learning with noisy labels,LNL)的核心挑战在于如何应对标签噪声对模型的干扰,以确保模型仍能学习到数据的真实分布与标注规律。现有方法可分为3类:噪声建模、目标函数设计、优化策略。噪声建模:通过转移矩阵描述噪声分布[5],包括线性/非线性适应层[6]、损失校正[7]和部分实例依赖噪声矩阵[8]等。目标函数设计:采用正则化[9]、重加权[10]调整目标函数以减轻噪声影响。优化策略:利用记忆效应[11],如小损失技巧[12-14]和自动机器学习[15]

本文从优化策略层面出发,根据IDN问题的特性设计更准确的实例依赖噪声识别方法,重点关注样本特征与类标签的关联,构建了样本与其所在类重心之间的鲁棒相似度指标,并设计了分布自适应的动态混合模型来区分干净样本与噪声样本,结合半监督学习框架完成模型训练。

论文的主要贡献如下:①在计算样本类中心点时,为缓解异常样本或不可靠样本对类中心的干扰,提出了一种鲁棒特征重心获取方法,并设计了一种基于类别重心的样本特征相似度指标,以此作为干净标签和噪声标签划分的依据;②在基于特征相似度的噪声识别过程中,考虑到高斯混合模型(Gaussian mixture model,GMM)在相似度分布拟合中的对称性局限,引入Beta混合模型(Beta mixture model,BMM)以更充分灵活地拟合相似度分布。结合两种模型的特征相似度分布拟合情况,提出一种动态混合模型(dynamic mixture model,DMM),以灵活适应深度模型不同训练阶段的相似度分布,进而提升标签噪声识别效果。

1 噪声标签学习的半监督学习框架

在噪声标签学习(learning with noisy labels,LNL)中,半监督学习框架已被证实是应对标签噪声的有效策略之一[1],其核心思想是将数据划分为干净集和噪声集,分别作为有标记数据和未标记数据,随后利用半监督学习方法进行联合训练。相比完全丢弃噪声样本的传统样本选择策略,这种框架能够有效利用所有含噪数据的特征,从而更充分地学习数据的分布信息。

半监督学习框架通常结合特定的样本选择方法与半监督学习算法进行训练。如DivideMix[16]等经典方法通过高斯混合模型对损失分布建模,将样本划分为有标记干净数据和未标记噪声数据,并应用半监督技术对划分后的数据进行训练。SELFIE[17]结合样本选择与损失校正,对可修复样本进行损失校正,并与小损失样本的监督训练相结合。CL[18]方法则通过结合鲁棒损失函数,从噪声数据中提取高置信度的真实标记样本。

通过样本选择与半监督学习的有机结合,带噪声标签学习在提高分类性能与鲁棒性方面取得了显著进展。然而,如何应对实例依赖噪声并更准确地划分干净与噪声数据,仍是该领域的一个重要挑战。

2 DMM带噪声标签学习

在实例依赖噪声假设中,噪声标签的产生与样本自身特征有关。因此,本文对数据进行特征提取、分析和建模,以解决实例依赖噪声问题。首先,使用特征提取器提取数据集样本的特征,并对其所属类别进行预测;其次,将预测结果属于同一类的样本进行计算,求得每一类的特征重心。根据每个样本的原始标签,计算该样本特征与其原始标签的特征重心的余弦相似度;再次,以动态混合GMM与BMM对相似度分布的拟合结果来划分干净集与噪声集;最后,使用干净集做有标记集,噪声集做无标记集进行半监督训练。DMM框架结构如图1所示。

图1 DMM框架图

Figure 1 DMM framework diagram

2.1 鲁棒特征重心

在实例依赖噪声场景中,样本与类别中心的特征相似度度量是划分干净样本与噪声样本的重要依据。然而,传统的特征中心容易受异常样本或低置信度样本的干扰,从而导致类别中心偏移。

为解决此问题,本文引入一种鲁棒特征重心(robust feature centroid)计算方法,以减弱异常样本对类别中心的影响。具体而言,采用可靠性加权方式计算类别重心,在更新类别重心时通过迭代优化的方式减小异常样本的权重,并逐步调整类别中心的位置,使其对类别内的可靠样本进行更好的聚合,降低特征重心对异常或噪声样本的敏感性。首先,将初始类别特征重心设定为样本预测类别的特征均值,即

(1)

式中:表示类别k的初始重心;nk表示类别k中样本的数量;zi表示预测类别为的样本i的特征向量。

其次,类别重心根据样本可靠性进行加权迭代更新。类别k的重心更新公式为

(2)

式中:nk表示类别k中样本的数量;zi表示预测类别为k的样本的特征向量。

样本i的权重为

(3)

它通过样本与当前类别重心的余弦相似度来度量样本的可靠性。样本i与当前中心越相似,样本标签越可靠,其权值越大。在迭代过程中,类别重心和权重会轮流进行更新。

对于每个样本,根据其原始标签yi找到对应的类别重心Cyi,计算样本特征与对应类别重心的余弦相似度用于识别标签噪声。由于特征向量和类别中心已归一化,余弦相似度等价于它们的点积,即

Si=zi·Cyi

(4)

这种方法显著提升了类别特征重心的稳定性,为后续基于特征相似度的噪声样本识别提供了更加可靠的依据。

2.2 实例依赖噪声分布特性

本文首先选择最常见的高斯混合模型对干净样本和噪声样本的相似度分布进行拟合,并对深度模型不同训练时期的拟合情况进行分析。由余弦相似度的定义可知,样本特征与其给定标签类中心的余弦相似度越大,表明该样本属于标签类的可能性越大,即给定标签是正确标签的可能性越大。图2为CIFAR-10数据集上所有样本的余弦相似度值在不同训练时期的分布,图2(a)和图2(b)为ResNet-34模型第55轮训练的结果,余弦相似度分布整体相对平滑,且高密度区域主要集中在中间靠右区域(0.8附近),此时干净样本和噪声样本的余弦相似度值较为接近但尚未形成明确分界。

图2 GMM与BMM在不同训练阶段对样本余弦相似度的拟合情况

Figure 2 Fitting performance of GMM and BMM on sample cosine similarity at different training stages

图2(c)和图2(d)为训练后期第135轮的样本余弦相似度分布情况,此时样本分布整体向右偏移,已经划分为两个明显的部分:中间区域代表大部分噪声样本所处的子分布;靠近1的右侧区域密度显著增大,呈现出高度的偏态分布,是大部分干净样本所处的子分布。在训练的后期,由于高斯混合模型假设每个成分是一个高斯分布且分布对称,此时靠近1的子分布呈现左偏(期望在众数左侧),故GMM不能很好地拟合这部分数据。

为解决上述问题,本文将拟合数据的高斯混合模型替换为Beta混合模型。Beta分布的定义域为[0,1],与同类样本的余弦相似度的取值范围一致,天然适合拟合相似度数据。Beta分布可以使用两个形状参数自适应调整分布样式,能够灵活适应多种数据分布,如对称数据以及训练后期的左偏数据等。

相比于GMM,BMM能更准确地捕捉偏态分布的特性,尤其是取值接近1的干净样本的相似度子分布。图2中BMM在训练后期比GMM更加贴合偏态分布,能更准确地拟合干净样本所在子分布。然而,BMM在深度模型训练初期的效果并不是很好,主要是因为训练初期干净和噪声样本的相似度分布比较集中且混杂,此时GMM的拟合效果更好,两个子分布的重叠区域较BMM的要小。综上,在深度模型训练初期,GMM的子分布间重叠区域较小,比BMM具有更低的噪声误分概率,因此GMM适合拟合模型训练初期两类样本的相似度分布;而在训练后期,BMM在拟合偏态分布上比GMM表现更优,适合拟合后期的相似度分布。

2.3 标签噪声的动态混合识别

在深度模型的不同训练阶段,BMM和GMM对样本相似度分布表现出不同的分布拟合效果和噪声区分能力。因此,本文提出了一种分布自适应的动态混合模型(dynamic mixture model,DMM)。该模型根据GMM和BMM对特征相似度分布的拟合效果自动确定组合模式,以充分发挥GMM和BMM在不同训练时期的拟合优势。

DMM通过动态组合机制,在训练过程中根据当前所处的训练阶段和两种混合模型与数据分布的拟合程度,自适应地调整GMM和BMM对数据划分结果的贡献。该机制不仅有效平衡了两种模型的特性,而且对基于样本特征的余弦相似度值进行划分,故DMM具有优良的实例依赖噪声适配性。

总体上,在公式计算出每个样本与其所在类别鲁棒特征重心的相似度后,本文分别采用了GMM与BMM的样本划分策略,并加以动态组合以更好地识别和处理噪声样本。具体步骤如下。

步骤1 将干净样本和噪声样本初步划分。分别使用GMM和BMM对样本的余弦相似度值进行双成分类簇划分,相似度较高的子分布表示干净集合,相似度较低的子分布表示噪声集合。

步骤2 模型拟合程度评估。本文选择Jensen-Shannon(JS)散度来评估两种模型对相似度分布的拟合程度。考虑到干净和噪声成分子分布未知,本文利用相似度总分布和GMM/BMM拟合总分布的JS散度来评估两种模型的拟合优度。归一化后的模型密度fG(x)、fB(x)与相似度直方图分布h的JS散度分别为

(5)

(6)

式中:分别表示hfG(x)、fB(x)的平均分布;为两个分布的Kullback-Leibler(KL)散度。JS散度越小表明模型拟合效果越好。通过JS散度可以精确评估两种模型在当前轮次中的表现,为动态混合模型(DMM)提供了更具体的组合依据。

步骤3 动态组合策略。GMM和BMM对标签噪声概率的估计结果主要取决于分布特征趋势和分布拟合程度。一方面,分布特征趋势是指模型训练不同时期相似度分布的集中度和对称性不同,前期分布集中对称,适合采用GMM估计噪声概率,后期分布分散偏态,适合使用BMM估计噪声概率。因此GMM的趋势系数前期大且后期小,而BMM的趋势系数正好相反。

考虑到BMM在初期对数据的适应性较弱,本文设置GMM和BMM的初始权重分别为为了使BMM能在后期充分发挥其分类能力,趋势系数使用了Logistic增长函数,即

(7)

式中:σ为Logistic 函数的平移参数,表示权重变化的中点,即BMM开始占据主导地位的轮次,其值为BMM的JS散度首次低于GMM时的轮次;epoch为训练轮次;k为Logistic函数的陡峭度参数,决定权重变化的速度,本文取0.2。

另一方面,分布拟合程度通过JS散度来评价,JS散度越小表明模型拟合效果越好,模型的权重应当更大,因此GMM和BMM的拟合系数分别为

(8)

(9)

GMM和BMM的权重最终由迭代趋势系数和拟合系数组合得到。模型训练前期相似度较集中和对称,GMM的趋势系数较大;训练后期相似度较分散和偏态,BMM的趋势系数较大。在第t轮,GMM与BMM的最终权重为

(10)

(11)

容易验证最终权重具有以下性质:①②由于与拟合程度成正比,与拟合程度成正比;③由于与趋势系数θ成反比;④由于与趋势系数θ成正比。

综合GMM和BMM的样本划分结果,最终的标签噪声概率计算式为

(12)

式中:为高斯混合模型的预测结果;为Beta混合模型的预测结果。

这种混合估计策略能够避免单一模型对数据分布适应性不足的问题,提高标签噪声的识别准确性。基于综合预测概率PF,将数据划分为干净集C1和噪声集N1。随后使用Co-Divide技术对干净集C1进一步细分和精炼其样本质量,得到更精细的干净集C2与噪声集N2。同时,将细分后的噪声集N2以及粗分的噪声集N1视为无标签数据,与干净集C2作为有标签数据相结合,采用半监督学习策略对网络模型进行联合训练。在训练过程中,对N1N2结合而成的无标记数据集,通过伪标签生成、一致性正则化和熵最小化等方法充分利用无标签数据的信息,并通过动态更新样本划分,将置信度提高的无标签样本逐步迁移到干净集中,以实现自我修正和迭代优化。DMM算法具体流程如下。

算法1 动态混合模型(DMM)算法。

输入:数据集D,训练轮数T,特征提取器F,预测器G,正式训练轮次Ep1;

输出:标签噪声概率的最终估计结果PF

① For t=Ep1 to T do

② For each (xi,yi) in D do

③ 特征提取zi=F(xi);

④ 预测类别

⑤ End

⑥ 根据式(2)计算每类的鲁棒特征重心

⑦ 计算各样本特征与其所属类别重心特征的余弦相似度:Si=zi·Cyi;

⑧ 使用GMM预估每个样本的标签噪声概率

⑨ 使用BMM预估每个样本的标签噪声概率

⑩ 设置GMM与BMM的初始权重

计算所有样本的特征相似度直方图分布h;

评估GMM和BMM与直方图分布的拟合优度:DJS(h,fGMM),DJS(h,fBMM);

根据式(8)计算GMM的拟合系数

根据式(9)计算BMM的拟合系数

根据式(7)计算θ以更平滑的调节GMM与BMM的权重;

计算GMM最终权重

计算BMM最终权重

计算每个样本的标签噪声概率的最终估计结果

End

Ep1轮为网络的预热阶段。在正式训练的每个轮次中,特征提取器F与预测器G将在 DMM 算法之外进行迭代更新。

3 实验结果与分析

3.1 数据集

为验证所提方法的有效性,本文采用了两类主流的IDN生成方式创建的合成数据集,两个来自真实世界的动物识别的图像数据集Animal-10 N和IDN数据集Clothing1M。具体设置如下。

(1)人工加噪数据集。通过在CIFAR-10和CIFAR-100数据集上分别添加两类IDN合成噪声,最终生成了4个人工加噪数据集。CIFAR-10数据集包含10个类别,每个类别有6 000张图像,总计50 000张训练图片和10 000张测试图片。CIFAR-100数据集分为100个类别,包含50 000张训练图片和10 000张测试图片。

两类IDN合成噪声分别为基于部分依赖的实例依赖噪声[8]和基于分类的实例依赖噪声[3]。基于部分依赖的实例依赖噪声通过样本的局部特征转移矩阵的加权组合来近似组合生成样本的实例依赖噪声标签。基于分类的实例依赖噪声通过深度模型预测结果估计错误标记概率,并根据该概率生成实例相关的IDN噪声数据集,能更真实地模拟实际数据中的噪声特性。

(2)真实世界IDN数据集。Clothing1M包含来自14个类别的100万张服装图片,数据来源于在线购物网站,其中包含大量标注错误的样本。其测试集数据集包含10 000 张图片。Animal-10N具有近8%的标签噪声[19],含有数对易混淆的动物,如猫和猞猁、狼和土狼等。数据集中图片分辨率为64×64,从多个在线搜索引擎抓取。训练数据集包含50 000张图片,测试数据集包含5 000张图片。

3.2 实验参数设置

实验在配备NVIDIA RTX 4090 GPU(24 GB显存)的工作站上进行,操作系统为Ubuntu 18.04 LTS,深度学习框架采用PyTorch 1.7和CUDA 11.0。

对于CIFAR-10和CIFAR-100数据集的实验,本文使用ResNet-34作为主干网络,超参数参照DivideMix[16]设置。训练中采用SGD优化器,其动量为0.9,权重衰减参数设为0.000 5;学习率在前150个epoch为0.02,之后降低至0.002;预热周期分别为CIFAR-10的10个epoch和CIFAR-100的15个epoch。在Clothing1M数据集的实验中,本文使用了ImageNet预训练的ResNet-50作为主干网络,模型训练共进行80个epoch,初始学习率为0.002,并在训练40个epoch后衰减至0.000 2。对Animal-10 N数据集上的实验,本文使用VGG-19作为骨干网络,并采用随机梯度下降(SGD)优化器进行训练。网络总共训练了100个epoch。初始学习率为 0.01,并在第50个和第75个epoch后将学习率降为原来的1/5。

3.3 实验结果分析

对于CIFAR-10/100数据集,本文在两种不同生成方式的IDN下进行评估。

表1为基于部分依赖的IDN实验。由表1可知,本文方法在高噪声环境(η=0.6)下准确率仍能超过90%且表现最优。在CIFAR-100数据集上,只有TSCLS、SV-learner和本文方法的准确率超过70%;本文方法在各种噪声水平下都比总体表现较好的TSCLS与SV-learner方法表现更优秀。

表1 基于部分依赖生成的实例依赖噪声数据集上各模型的准确率

Table 1 Accuracy of each model on instance-dependent noise datasets generated based on part dependence 单位:%

方法在CIFAR-10上的准确率在CIFAR-100上的准确率η=0.2η=0.4η=0.6η=0.2η=0.4η=0.6ForwardT[7]87.2279.3766.5658.1942.8027.91LDMI[20]88.5782.8269.9457.9042.7026.96Lq[21]85.8174.6660.7657.0339.8124.87Co-teaching[14]88.8773.0062.5143.3023.2112.58Co-teaching+[22]89.8073.7859.2241.7124.4512.58JoCoR[23]88.7871.6463.4643.6623.9513.16Reweight-R[11]90.0484.1172.1858.0043.8336.07PeerLoss[24]89.1283.2674.5361.1647.2331.71CORES2[25]91.1483.6777.6866.4758.9938.55DivideMix[16]93.3395.0785.5079.0476.0846.72CAL[26]92.0184.9679.8269.1163.1743.58TSCLS[27]93.6894.9794.9579.6176.5859.40SV-learner[28]93.2994.6993.8475.1974.8859.72本文方法94.1695.5295.2179.8677.2859.84

表2为基于分类生成的IDN (CIFAR-10)数据集上标签噪声实验的结果。由于这种噪声基于神经网络预测生成,更接近真实的实例依赖噪声,实验难度更大。在这种设置下,本文方法在每种噪声比例下均优于对比方法,尤其是在高噪声比例(η=0.3,0.4)下,相比TSCLS方法,本文方法准确率仍可提升1%~2%。

表2 基于分类生成的IDN数据集上各模型的准确率

Table 2 Accuracy of each model on IDN datasets generated based on classification 单位:%

Method准确率η=0.1η=0.2η=0.3η=0.4ForwardT[7]91.0686.3578.8771.12Co-teaching[14]91.2287.2884.3378.72GCE[21]90.9786.4481.5476.71DAC[29]90.9486.1680.8874.80DMI[30]91.2686.5781.9877.81SEAL[3]91.3287.7985.3082.98TSCLS[27]91.3988.3686.9284.18本文方法91.4988.8587.9685.42

表3展示了使用VGG-19架构的各方法在Animal-10N数据集上的实验结果。本文的方法取得了最高的准确率84.21%,略优于方法NAL。该结果进一步表明本文方法应对真实世界噪声数据时的鲁棒性与泛化能力。表4列出了在Clothing1M数据集上各方法的实验结果,本文方法的准确率高于所有对比方法,相较于已有方法中表现最好的TSCLS与最新的方法SV-learner准确率均有所提升。

表3 Animal-10N数据集上的准确率

Table 3 Accuracy on the Animal-10N dataset 单位:%

方法准确率方法准确率CE79.40Nested+Co-teaching[32]84.10GCE[21]81.50NAL[19]84.18SELFIE[17]81.80本文方法84.21PLC[31]83.40

表4 Clothing1M数据集上的准确率

Table 4 Accuracy on the Clothing1M dataset 单位:%

方法准确率方法准确率ForwardT[7]70.83CORES2[25]73.24Co-teaching[14]69.21CAL[26]74.17JoCoR[23]70.30TSCLS[27]75.40LDMI[20]72.46SV-learner[28]75.20PTD-R-V[8]71.67本文方法75.80DivideMix[16]74.76

3.4 消融实验

本文在CIFAR-10(η=0.4,基于分类生成IDN),CIFAR-100(η=0.6,基于部分依赖生成IDN)与真实IDN数据集Clothing1M上进行了消融实验。在相同的设置下比较了鲁棒特征重心计算和DMM噪声识别技术对准确率的影响。以常规交叉熵损失深度模型为基准模型,分别测试了将直接使用交叉熵损失(cross-entropy loss,CE)方法、普通中心结合GMM的方法、鲁棒特征重心结合GMM的方法、普通中心结合DMM的方法和鲁棒特征重心结合DMM的方法这4种方法在上述3个数据集上的测试准确率。消融实验的最终测试准确率如表5所示。由表5可知,鲁棒特征重心和DMM均能提升模型的测试准确率,单独使用DMM比单独使用鲁棒特征重心对准确率的提升更显著。实验结果表明,鲁棒特征重心与DMM的协同设计分别通过增强特征表征鲁棒性与提升对数据的拟合效果,显著提升了噪声标签学习任务的性能。

表5 本文模型在各类数据集上的消融实验结果

Table 5 Results of ablation experiments of this model on various datasets 单位:%

方法准确率CIFAR-10(η=0.4)CIFAR-100(η=0.6)Clothing1MCE75.8349.4169.84普通中心+GMM84.1259.4075.40鲁棒特征重心+GMM84.3559.4575.51普通中心+DMM84.9759.7375.62鲁棒特征重心+DMM85.4259.8475.80

在CIFAR-10(η=0.4,基于分类生成IDN)下不同方法的曲线下面积(area under the curve,AUC)与GMM、BMM的权重系数随训练轮次(epoch)变化的曲线如图3所示。

图3 鲁棒特征重心与动态混合模型在标签噪声识别中的AUC表现对比以及模型权重变化趋势图

Figure 3 Comparison of AUC performance between robust feature centroid with dynamic mixture model and trends of model weight in label noise identification

在图3中,AUC被用作划分干净样本与噪声样本的检测指标。橙色曲线使用普通样本中心结合动态混合模型(DMM)进行分类,相较于蓝色曲线(使用普通样本中心并结合高斯混合模型)整体AUC表现更稳定,且在大多数训练轮次中取得更高的AUC分数。绿色曲线使用鲁棒特征重心方法结合动态混合模型(DMM)进行分类。在所有训练阶段都表现优于其他2种方法,AUC稳定保持在较高水平,进一步证明了鲁棒特征重心与DMM结合的最佳效果,充分验证了本文方法的有效性和鲁棒性。对于GMM、BMM的权重系数图3中紫色虚线和紫色点划线分别表示GMM和BMM的动态权重。初始设置在拟合程度系数和趋势系数α的动态调整作用下,紫色虚线随着训练轮次逐渐下降,而紫色点划线则稳步上升,展现出动态调整的规律性。紫色虚线(GMM权重)起始于0.8,并始终高于紫色点划线(BMM权重)。此阶段GMM的权重较大,表明GMM对相似度分布的拟合效果更好,对数据划分结果的贡献更显著。这一趋势符合本文提出的观点,即在训练的早期阶段,GMM更适合拟合样本分布,具有更高的预测权重。随着训练的进行,紫色虚线逐渐下降,而紫色点划线稳步上升,两条曲线交于一点(epoch=89),此时的值为0.5。随着模型进入训练后期,BMM在相似度分布的拟合效果优于GMM,其对数据划分结果的贡献也更大。这一阶段的权重变化趋势与本文提出的观点一致,即在训练后期,BMM更适合处理斜偏的数据,因此需要赋予其更高的权重。这一曲线趋势与理论预期完全吻合,验证了本文方法的有效性。

4 结论

针对实际数据中普遍存在且难以识别的实例依赖标签噪声难题,本文设计了更稳定的类重心计算方法和样本相似度指标,提出了一种基于动态混合模型的鲁棒学习方法,通过结合高斯混合模型与Beta混合模型的优势,动态组合噪声估计概率以应对复杂多变的实例依赖噪声标签数据分布。

本文提出的动态混合模型(DMM)为标签噪声识别和分布动态拟合提供了新思路,未来有望在更充分的高维特征表示中发挥更大潜力,进一步提升标签噪声学习方法的性能。

参考文献:

[1] SONG H,KIM M,PARK D,et al.Learning from noisy labels with deep neural networks: a survey[J].IEEE Transactions on Neural Networks and Learning Systems,2023,34(11): 8135-8153.

[2] 林楠,唐凯鹏,牛勇鹏,等.基于双阶段特征提取网络的ECG降噪分类算法[J].郑州大学学报(工学版),2024,45(5): 61-68.LIN N,TANG K P,NIU Y P,et al.An ECG denoising and classification algorithm based on two-stage feature extraction network[J].Journal of Zhengzhou University (Engineering Science),2024,45(5): 61-68.

[3] CHEN P F,YE J J,CHEN G Y,et al.Beyond class-conditional assumption: a primary attempt to combat instance-dependent label noise[C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Virtual Conference: AAAI Press,2021: 11442-11450.

[4] LIU Y.Understanding instance-level label noise: disparate impacts and treatments[C]∥International Conference on Machine Learning.Vienna: PMLR,2021: 6725-6735.

[5] BERTHON A,HAN B,NIU G,et al.Confidence scores make instance-dependent label-noise learning possible[EB/OL].(2021-02-22)[2025-03-01].https:∥arxiv.org/abs/2001.03772v2.

[6] LI J Z,SUN H L,LI J Y.Beyond confusion matrix: learning from multiple annotators with awareness of instance features[J].Machine Learning,2023,112(3): 1053-1075.

[7] CHO Y,KIM W J,HONG S,et al.Part-based pseudo label refinement for unsupervised person re-identification[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway: IEEE,2022: 7298-7308.

[8] XIA X,LIU T,HAN B,et al.Part-dependent label noise: towards instance-dependent label noise[C]∥Advances in Neural Information Processing Systems.Virtual Conference: Curran Associates,Inc.,2020: 7597-7610.

[9] SHEN Y Q,XU L W,YANG Y Z,et al.Self-distillation from the last mini-batch for consistency regularization[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway:IEEE,2022: 11933-11942.

[10] SHU J,XIE Q,YI L,et al.Meta-weight-net: Learning an explicit mapping for sample weighting[EB/OL].(2019-12-08)[2025-03-01].https:∥arxiv.org/pdf/1902.07379.

[11] ZHANG Y H,WANG C R,LING X,et al.Learn from all: erasing attention consistency for noisy label facial expression recognition[C]∥Computer Vision-ECCV 2022.Cham: Springer,2022: 418-434.

[12] JIANG L,ZHOU Z Y,LEUNG T,et al.MentorNet: learning data-driven curriculum for very deep neural networks on corrupted labels[EB/OL].(2018-08-13)[2025-03-01].https:∥arxiv.org/abs/1712.05055v2.

[13] REN M Y,ZENG W Y,YANG B,et al.Learning to reweight examples for robust deep learning[EB/OL].(2019-05-05)[2025-03-02].https:∥arxiv.org/abs/1803.09050v3.

[14] HAN B,YAO Q M,YU X R,et al.Co-teaching: robust training of deep neural networks with extremely noisy labels[EB/OL].(2018-10-30)[2025-03-01].https:∥arxiv.org/abs/1804.06872v3.

[15] YAO Q M,YANG H S,HAN B,et al.Searching to exploit memorization effect in learning fromcorrupted labels[EB/OL].(2020-09-18)[2025-03-01].https:∥arxiv.org/abs/1911.02377v5.

[16] LI J,SOCHER R,HOI S C H.DivideMix: Learning with Noisy Labels as Semi-supervised Learning[EB/OL].(2020-02-18)[2025-03-01].https:∥arxiv.org/abs/2002.07394.

[17] SONG H,KIM M,LEE J G.Selfie: Refurbishing unclean samples for robust deep learning[C]∥International Conference on Machine Learning.Long Beach: PMLR,2019: 5907-5915.

[18] LYU Y M,TSANG I W.Curriculum loss: robust learning and generalization against label corruption[EB/OL].(2020-02-21)[2025-03-01].https:∥arxiv.org/abs/1905.10045v3.

[19] LU Y,BO Y,HE W.Noise attention learning: Enhancing noise robustness by gradient scaling[C]∥ 36th Conference on Neural Information Processing Systems,NeurIPS 2022.New Orleans:CNIPS,2022,35: 23164-23177.

[20] XU Y L,CAO P,KONG Y Q,et al.L_DMI: a novel information-theoretic loss function for training deep nets robust to label noise[EB/OL].(2019-12-08)[2025-03-01].https:∥specialsci.cn/detail/cf61b99e-91cf-427a-84a1-064b84330db2?resourceType=0.

[21] ZHANG Z L,SABUNCU M R.Generalized cross entropy loss for training deep neural networks with noisy labels[C]∥Advances in Neural Information Processing Systems.Montréal: Curran Associates,Inc.,2018: 8792-8802.

[22] YU X,HAN B,YAO J,et al.How does disagreement help generalization against label corruption?[J]Statistics,2019,2: 7164-7173.

[23] WEI H X,FENG L,CHEN X Y,et al.Combating noisy labels by agreement: a joint training method with co-regularization[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway: IEEE,2020: 13726-13735.

[24] LIU Y,GUO H Y.Peer loss functions: learning from noisy labels without knowing noise rates[EB/OL].(2020-08-14)[2025-03-10].https:∥arxiv.org/abs/1910.03231v7.

[25] CHENG H,ZHU Z,LI X,et al.Learning with Instance-Dependent Label Noise: A Sample Sieve Approach[EB/OL].(2021-03-22)[2025-03-01].https:∥arxiv.org/abs/2010.02347.

[26] ZHU Z W,LIU T L,LIU Y.A second-order approach to learning with instance-dependent label noise[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway: IEEE,2021: 10113-10123.

[27] ZHAO G L,LI G B,QIN Y P,et al.Centrality and consistency: two-stage clean samples identification for learning with instance-dependent noisy labels[C]∥17th European Conference on Computer Vision-ECCV 2022.Cham: Springer,2022: 21-37.

[28] LIANG X,JI Y L,ZHENG W S,et al.SV-learner: support-vector contrastive learning for robust learning with noisy labels[J].IEEE Transactions on Knowledge and Data Engineering,2024,36(10): 5409-5422.

[29] THULASIDASAN S,BHATTACHARYA T,BILMES J,et al.Combating label noise in deep learning using abstention[EB/OL].(2019-08-01)[2025-02-10].https:∥arxiv.org/abs/1905.10964v2.

[30] XIAO T,XIA T,YANG Y,et al.Learning from massive noisy labeled data for image classification[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway:IEEE,2015: 2691-2699.

[31] ZHANG Y K,ZHENG S Z,WU P X,et al.Learning with feature-dependent label noise: a progressive approach[EB/OL].(2021-03-27)[2025-03-01].https:∥arxiv.org/abs/2103.07756v3.

[32] CHEN Y Y,SHEN X,HU S X,et al.Boosting co-teaching with compression regularization for label noise[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).Piscataway:IEEE,2021: 2688-2692.

A Dynamic Mixture Noise Identification Method for Learning with Instance-dependent Label Noise

JIANG Gaoxia1,ZHANG Yao1,WANG Wenjian1,2

(1.School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China; 2.Key Laboratory of Data Intelligence and Cognitive Computing of Shanxi Province,Taiyuan 030006,China)

AbstractIn learning with instance-dependent label noise (IDN),semi-supervised methods could mitigate noise interference and leverage feature information,but their effectiveness depended on accurate noise identification and was susceptible to the choice of recognition technique.To address this limitation,a robust feature-centroid mechanism was designed to weaken the influence of unreliable samples and a distribution-adaptive dynamic mixture model (DMM) was proposed based on feature similarity.Pairwise feature similarities was extracted,both Gaussian Mixture Models (GMM) and Beta Mixture Models (BMM) were used to fit these similarity distributions,and dynamically to fuse their outputs to achieve more accurate noise identification.A semi-supervised learning strategy was then integrated to complete the training process.On artificially corrupted CIFAR-10 and CIFAR-100 datasets,our method achieved state-of-the-art performance.On real-world noisy benchmarks Animal-10N and Clothing1M,it attained classification accuracies of 84.21% and 75.80%,respectively,outperforming representative existing approaches and demonstrating the effectiveness and applicability of our approach for IDN learning tasks.

Keywordsinstance-dependent noise; learning with noisy label; class centroid; dynamic mixture model; semi-supervised learning

中图分类号:TP181;TP183

文献标志码:A

doi:10.13705/j.issn.1671-6833.2025.06.009

收稿日期:2025-10-25;修订日期:2025-12-18

基金项目:国家自然科学基金资助项目(62476157,62576201,62576198);国家自然科学基金联合基金重点项目(U21A20513)

作者简介:姜高霞(1987—),男,山西运城人,山西大学教授,博士,博士生导师,主要从事机器学习和数据挖掘研究,E-mail: jianggaoxia@sxu.edu.cn。

通信作者:王文剑(1968—),女,山西太原人,山西大学教授,博士,博士生导师,主要从事机器学习和数据挖掘研究,E-mail: wjwang@sxu.edu.cn。

引用本文:姜高霞,张尧,王文剑.面向实例依赖标签噪声学习的动态混合噪声识别方法[J].郑州大学学报(工学版),2026,47(3):67-75.(JIANG G X,ZHANG Y,WANG W J.A dynamic mixture noise identification method for learning with instance-dependent label noise[J].Journal of Zhengzhou University (Engineering Science),2026,47(3):67-75.)

文章编号:1671-6833(2026)03-0067-09