黑色素瘤因其高转移性和治疗耐药性成为最具侵袭性的皮肤癌。根据Arnold等[1]于2020年进行的全球黑色素瘤模型研究,预计到2040年,黑色素瘤将增加至510 000个新病例并导致96 000例死亡,亟需有效治疗策略。近年来,免疫检查点抑制剂(immune checkpoint inhibitor,ICI)通过激活T细胞免疫应答,显著改善临床治疗效果,使患者5年生存率从5%提升至30%[2]。然而,耐药性仍导致多数患者响应有限。
美国食品药品监督管理局已批准程序性死亡配体1(PD-L1)表达水平、微卫星高度不稳定性/错配修复缺失及肿瘤突变负荷(tumer mutational burden,TMB)作为免疫治疗响应的预测标志物。然而,PD-L1表达具有时空异质性,且其免疫组化检测结果受蛋白动态表达影响[3]。近期研究表明,RNA测序技术相较于免疫组化,能更有效地预测黑色素瘤患者对ICI治疗的响应[4]。此外,TMB评估易受肿瘤纯度干扰,可能导致结果偏差[5]。Litchfield等[6]发现,传统标志物只能解释约60%的ICI响应,上述研究表明了开发新预测模型的必要性。
人工智能方法在肿瘤免疫治疗预测领域取得显著进展。Tabari等[7]首次将影像组学与血清乳酸脱氢酶(lactate dehydrogenase,LDH)结合构建了LDH-LR模型预测ICI治疗响应。Guo等[8]提出了二阶多项式正则化逻辑回归模型用于预测黑色素瘤患者对ICI治疗的响应。Ligero等[9]使用整合放射组学特征与临床特征的弹性网模型预测免疫治疗响应。特别地,Chowell等[10]通过整合基因组学、分子学、人口学和临床数据提出了一种RF16模型,与基于TMB的方法相比,这个模型显著提高了ICI治疗响应预测的准确性。
转录组特征不仅能有效区分预后差异的患者亚群,还可指导免疫治疗的患者选择[11]。批量RNA测序数据已通过Logistic回归模型证实其在免疫治疗响应预测中的可靠性[12]。值得注意的是,单细胞测序技术可精确解析细胞异质性,通过识别特定亚群的配体-受体互作网络揭示免疫调控机制[13]。最新研究通过整合批量RNA测序和单细胞RNA测序数据,结合机器学习算法,显著提升了ICI治疗响应预测的准确性[14]。
尽管基于转录组的机器学习模型在预测ICI响应方面取得进展,但尚未充分挖掘单细胞分辨率下细胞通讯对疗效的影响。受文献[15-16]的启发,本文整合黑色素瘤患者的批量RNA测序数据,提出了二重群极小极大凹惩罚Logistic回归模型(DMCPLR)并将其应用于黑色素瘤患者ICI治疗响应预测。
本文收集了黑色素瘤患者的批量RNA测序数据和单细胞RNA测序数据,并将它们进行皮尔逊相关性整合形成新的数据集[X,Y]。令X=(x1,…,xk,…,xn)T是n×m相关性矩阵,其中xk=(xk1,xk2,…,xkm),xkm代表第k个患者与第m个细胞之间的皮尔逊相关系数。令Y=(y1,…,yk,…,yn)T为样本的标签。若样本对ICI有响应,则yk为1,否则为0。
ICI响应预测问题可以转化为二分类问题,即使用如下决策函数[8]来预测样本标签:
(1)
式中:f(x)=βTX+β0为回归函数,β和β0通过1.5节中算法1得到;T0为阈值,根据对数概率的显著性,T0的值为0.5。
黑色素瘤批量RNA测序数据集从基因表达综合数据库(gene expression omnibus,GEO)[17]下载。该数据集包含22名ICI响应者和34名ICI非响应者的20 631个基因表达值。黑色素瘤单细胞RNA测序数据从GEO[18]下载。该数据集共包含48名黑色素瘤患者和16 291个免疫细胞。为深入分析免疫治疗的效果差异,根据患者接受治疗的时间节点(治疗前/治疗后)以及对治疗的反应状态(有响应/无响应),将数据划分为4组:治疗前有响应(preR)组、治疗前无响应(preNR)组、治疗后有响应(postR)组和治疗后无响应(postNR)组。上述数据集的详细描述如表1所示。
表1 批量RNA测序和单细胞RNA测序数据集的详细信息
Table 1 Detailed information on bulk RNA-seq and single-cell RNA-seq datasets
分类分组免疫细胞数量基因表达数量样本数量批量RNA测序数据—20 63156单细胞RNA测序数据preR组2 72555 7389preNR组3 20355 73810postR组2 83955 7388postNR组7 52455 73821
现有基于单细胞和批量测序数据的ICI响应预测方法多采用特征提取与预测建模分离的两步式策略[12-13]。这种方法难以充分挖掘患者-细胞之间复杂的交互关系,限制模型对微环境状态与ICI响应潜在关联的刻画能力。为此,本文提出了一种整合批量RNA测序和单细胞RNA测序数据的新策略。首先,使用R包“Seurat”(4.3.0版本)对数据进行预处理。特别地,单细胞RNA测序数据包含55 738个基因,将表达水平低于数据集中细胞总数10%的基因去除。接着,通过取两种数据中基因的交集来筛选共享基因。最后,通过计算患者-细胞间的皮尔逊相关系数构建相关矩阵(行为患者样本,列为单细胞),实现数据整合。批量RNA测序和单细胞RNA测序数据的整合过程如图1所示。相似矩阵中值的范围从-1到1,其中-1表示细胞与样本之间完全负相关(即完全相反的相似性);0表示无相似性;1表示完全正相关(即完全相同的相似性)。
图1 批量RNA测序和单细胞RNA测序数据的整合过程
Figure 1 The integration process of bulk RNA-seq and single-cell RNA-seq data
鉴于细胞间通讯是在细胞群之间而非单个细胞之间发生,因此有必要对细胞进行预分组。本文使用Louvain算法对单细胞RNA测序数据中的细胞进行分组。首先通过R包“Seurat”中的“FindNeighbors”函数构建共享最近邻图。然后,通过式(2)将细胞划分为群[16]。
(2)
式中:h代表图中边的总数;Auv表示细胞u和细胞v之间边的权重;ku和kv分别是细胞u和细胞v的度;tu表示细胞u被分配到的群;δ函数在tu=tv时取值为1,否则取值为0。该算法通过R包“Seurat”中的“FindClusters”函数来实现,其中分辨率参数设置为0.6。
本文利用CellChat设计群重要性评分体系。具体而言,首先利用完整的人类配体-受体相互作用数据库CellChatDB,推断细胞间通讯情况,并将重要的配体-受体对归类到功能相关的信号通路中,进一步计算它们对相应通路的贡献。通过检索文献摘要(这些文献支持该通路的功能)中是否包含“免疫响应”一词来筛选与免疫响应相关的通路。在识别出与免疫响应相关的通路后,通过将每个配体-受体对在免疫响应相关通路中的相对贡献乘以该细胞群作为靶标的频率,来量化细胞群的重要性。
令C=
为p×g矩阵,其中p为已识别的免疫响应相关通路的数量;g表示细胞群的数量;向量cil中的元素ci代表第l个细胞群在第i条通路的重要性。设
为s维向量,其中s为配体-受体对的数量;
表示第j个配体-受体对在第i条通路中的相对贡献。令
为s×g矩阵,其中向量
中的元素
表示第l个细胞群在第i条通路中作为第j个配体-受体对的靶标的频率。向量ci使用以下公式进行计算:
(3)
第l个细胞群的重要性是其在每条通路中重要性的总和,可使用以下公式进行计算:
(4)
式中:(*)(l)表示向量中的l个分量。
针对免疫治疗响应预测中细胞群异质性强的问题,本文基于式(4)中群重要性评分,提出如下形式的惩罚函数:
(5)
式中:a和b为影响惩罚范围的参数;λ1=αλ和λ2=(1-α)λ为正则化参数;
为岭惩罚项。
(6)
式中:
为极小极大凹惩罚函数。
二重群极小极大凹惩罚函数为
(7)
式中:βi=(β(1),…,β(l),…,β(g))表示回归系数向量;β(l)是其对应于第l个群的子向量;
表示第l个群中第t个细胞对应的系数;Kl表示第l个群中细胞的数目。
与文献[19]相似,极小极大凹惩罚函数的导数为
(8)
由式(8)可知,惩罚率起始于初始的Lasso惩罚,然后逐渐放宽,直至
时,惩罚率变为0。群极小极大凹惩罚通过对外层惩罚fλ1,b应用于内层惩罚fλ1,a的总和来实现组间和组内的双层特征选择。将b设置为Kla|λ/2|,以便当
时实现外层惩罚率为0。此外,在惩罚函数P(β)中添加了惩罚项限制参数的大小,使模型更加稳定。
通过结合式(5)中的惩罚函数P(β)与负对数似然损失函数提出如下的二重群极小极大凹惩罚Logistic回归模型(double group minimax concave penalty logistic regression model,DMCPLR):
(9)
(10)
式中:n表示样本数量;
代表第k个患者与第l个群中的细胞之间的相关系数。式(10)中的系数向量β和阈值向量β0可通过算法1求解。
算法1 DMCPLR算法。
输入:训练集Xtrain,训练数据的标签向量Ytrain,λ的最小值λmin和最大值λmax,正整数n1;
输出:系数向量β,阈值向量β0;
① 通过Louvain算法获取细胞分组;
② 通过CellChat推断细胞间通讯;
③ 根据公式(4)计算细胞群的重要性;
④ for α∈{0.05,0.10,0.20,...,0.90,0.95}do
⑤ for λ(λmin:(λmax-λmin)/n1:λmax)do
⑥ 将Xtrain划分为10个部分,即Xtraini, i=1,2,…,10;
⑦ for i=1:10 do
⑧ 将Xtraini作为测试集,其余部分作为训练集;
⑨ 使用R语言的“grpreg”包在训练集上拟合DMCPLR模型,并在测试集上进行预测;
⑩ end for
计算10个测试集上的平均预测误差;
end for
确定最优的λ;
end for
确定最优参数对(α*,λ*);
使用R语言的“grpreg”包拟合DMCPLR模型,并在最优参数对(α*,λ*)下获取系数向量β和阈值向量β0。
在进行实验之前,需要对相似矩阵进行标准化,使得
且
以确保惩罚能被平等地施加,其中
表示第k个患者与第l个群中第t个细胞之间的相关系数。随后,实施分层抽样,随机选取80%(44个)的样本作为训练集Xtrain,而剩余的样本(12个)被指定为测试集Xtest。为了增强对模型性能的可靠评估,通过设置从1到50的随机种子,将预处理后的数据集随机划分50次。
为评估所提方法的有效性,本文在黑色素瘤GSE35640批量RNA测序数据集和整合数据集上进行了实验。实验比较了14种具有代表性的机器学习方法,包括6种经典的机器学习方法——Lasso回归、弹性网络(elastic net, EN)、脊回归(Ridge)、高斯朴素贝叶斯(Gaussian naive Bayes,GNB)、Logistic回归(logistic regression,LR)和支持向量机(support vecter mechine,SVM),4种集成学习方法——随机森林(random forest,RF)、XGBoost、AdaBoost和LightGBM,2种神经网络架构——深度神经网络(deep neural network,DNN)和反向传播神经网络(backpropagation neural network,BPNN),最新相关模型——LDH-LR和SOPRLR模型。由于SOPRLR模型需要计算特征间的相互作用,而本文的数据包含数千维特征,直接应用会使特征组合爆炸。为避免这一问题,首先基于随机森林的基尼重要性评分筛选出前50个关键特征,随后在这些特征上应用SOPRLR模型。考虑到所提模型需要同时利用单细胞RNA测序数据和批量RNA测序数据进行训练和测试,因此仅在整合数据集上评估所提模型性能。为确保实验结果的可靠性,所有模型均采用相同的数据预处理流程。在求解DMCPLR模型的过程中,α设置为30。对于每个固定的α,通过交叉验证来确定λ,并根据实验结果确定最优参数对(α*,λ*)。其余对比方法的参数配置均依据原始文献推荐策略进行调优。本文的实验均在一台配备英特尔酷睿i7-12700H处理器和32 GB内存的计算机上完成,软件版本为R 4.3.3。
为了验证整合数据策略的优势,本文在黑色素瘤GSE35640批量RNA测序数据集上评估了14种基准方法的预测性能。表2展示了在黑色素瘤GSE35640批量RNA测序测试数据集上14种模型在50次实验中4种评价指标所对应的均值及标准差,表3则呈现了在整合数据集上的结果。对比可知,整合单细胞与批量 RNA 测序数据的方法性能显著提升:所有模型在整合数据集的平均准确率高于单独用批量数据;各模型整合数据集标准差普遍降低,既提高精度又增强稳定性。虽然所有模型在整合数据集性能优于批量RNA数据集,但 DMCPLR模型仍居领先,相比其余模型平均预测准确率分别高出 22.18百分点,15.18百分点,21.85百分点,15.68百分点,10.51百分点,8.51百分点,13.18百分点,15.85百分点,16.85百分点,17.18百分点,20.35百分点,13.85百分点,1.82百分点 和 9.25百分点。
表2 14种模型在黑色素瘤GSE35640数据集上的结果
Table 2 Results of 14 models on the melanoma GSE35640 dataset
模型准确率精确率召回率F1分数平均值/%标准差平均值/%标准差平均值/%标准差平均值/%标准差BPNN[20]52.330.134 759.000.149 242.330.134 751.360.139 5AdaBoost[20]52.330.128 258.350.158 751.330.128 252.410.136 2DNN[21]52.170.136 358.030.157 454.260.136 351.400.141 2EN[8]57.670.102 159.210.118 353.670.102 154.320.105 7GNB[21]56.830.129 153.610.138 447.940.129 151.330.129 0Lasso[8]54.500.141 956.650.160 852.180.141 951.680.152 2LightGBM[20]49.830.152 453.340.156 751.870.152 449.070.154 5LR[20]50.330.130 569.690.130 748.910.130 562.650.125 0RF[21]55.500.122 652.890.143 351.490.122 650.570.128 7Ridge[8]53.830.119 259.130.129 954.970.119 252.610.116 1SVM[8]59.170.922 043.830.142 958.170.922 048.530.103 7XGBoost[20]54.330.143 756.880.170 156.110.143 752.590.153 5LDH-LR[7]62.910.837 056.200.752 072.160.105 266.740.115 2SOPRLR[8]68.570.963 062.740.101 665.740.917 064.320.730 0
表3 14种模型在整合测试数据集上的结果
Table 3 Results of 14 models on the integrated test dataset
模型准确率精确率召回率F1分数平均值/%标准差平均值/%标准差平均值/%标准差平均值/%标准差DMCPLR80.180.674 082.240.105 289.710.867 085.110.749 0BPNN[20]58.000.124 462.760.148 957.240.134 157.840.129 2AdaBoost[20]65.000.127 970.390.158 461.480.127 964.840.136 0DNN[21]58.330.136 062.240.157 159.370.136 058.230.140 9EN[8]64.500.990 070.740.114 762.400.990 064.400.102 5GNB[21]69.670.128 873.620.138 164.170.128 869.460.128 7Lasso[8]71.670.141 976.020.160 861.770.141 970.970.152 2LightGBM[20]67.000.146 872.830.152 066.210.146 867.010.149 9LR[20]64.330.126 672.500.126 864.330.126 664.930.121 3RF[21]63.330.118 968.750.139 060.370.118 963.030.124 8Ridge[8]63.000.115 670.160.126 064.190.115 663.460.112 6SVM[8]59.830.894 047.580.138 658.680.894 050.600.100 6XGBoost[20]66.330.139 471.900.165 064.950.139 466.220.148 9LDH-LR[7]78.360.812 063.900.729 076.320.102 069.540.111 7SOPRLR[8]70.930.934 067.740.986 074.320.890 070.920.708 0
鉴于整合数据集的类别不平衡性,本文引入了额外的评价指标(精确率、召回率、F1分数、混淆矩阵)。结果显示,DMCPLR模型在平均精确率上较其他模型分别提高了19.48百分点,11.85百分点,20百分点,11.5百分点,8.62百分点,12.55百分点,6.22百分点,9.74百分点,13.49百分点,12.08百分点,34.66百分点,10.34百分点,18.34百分点和14.5百分点。类似的,在召回率与F1分数方面,DMCPLR模型也获得了优越的性能。由于LR模型是所提模型的一个特例且性能不佳,因此在后续对比中不再考虑。ICI治疗中,误将响应者预测为非响应者属于致命错误(或致患者错失关键治疗机会)。图2展示了DMCPLR模型与其他13种方法在整合数据集上进行10次实验的混淆矩阵结果。(矩阵元素数值以颜色梯度呈现,数值大则色块深)。从图2可以看出,在12个样本中,DMCPLR模型仅出现1个致命错误样本,DNN、Lasso、Ridge和XGBoost模型均出现2个致命错误样本,AdaBoost、EN、BPNN、GNB、LightGBM、SOPRLR、RF均出现3个致命错误样本,SVM和LDH-LR模型出现4个致命错误样本,这表明DMCPLR模型在整合数据集上的致命错误率显著低于其他方法。
图2 14种方法的混淆矩阵可视化
Figure 2 Fourteen methods for visualizing confusion matrices
为了评估基于细胞通讯构建的细胞群重要性准则式(4)对模型性能的影响,本文对DMCPLR模型进行了消融分析实验。具体而言,本文去除了DMCPLR模型中基于细胞通讯的细胞群权重分配机制,即将所有细胞群权重统一设置为1进行等权重处理,同时保持其他模型结构和超参数不变,并将该模型命名为GMCPLR(group minimax concave penalty logistic regression model)。经过相同的实验步骤后,DMCPLR和GMCPLR在整合后数据集的测试集上的平均预测准确率如图3所示。从图3中可以看出,GMCPLR在整合后数据集的测试集上的平均预测准确率低于DMCPLR在相应测试集上的平均预测准确率。这表明基于细胞通讯的细胞群权重分配机制能够有效提升模型预测性能,进而验证了细胞间通讯对免疫治疗响应的重要性。
图3 DMCPLR和GMCPLR在整合数据集的测试集上的平均预测准确率箱线图
Figure 3 Boxplot of the average prediction accuracy for DMCPLR and GMCPLR on the testing sets of the integrated datasets
为进一步探讨惩罚函数对模型性能的影响,本文在DMCPLR模型中去除了L2正则化项,并将其命名为DMCPLR-L1。为了进行对比,本文选取LR模型作为基线模型。图4展示了在整合数据集上,DMCPLR、DMCPLR-L1和LR模型在50次实验中的平均预测准确率、精确率、召回率和F1分数。从图4中可以看出,DMCPLR模型在4个评价指标上均优于其他两个模型。
图4 DMCPLR、DMCPLR-L1和LR在整合数据集上4种评价指标的柱状图
Figure 4 Bar charts of four evaluation indicators DMCPLR, DMCPLR-L1, and LR on integrated datasets
考虑到细胞群对ICI响应的差异性影响,使用单细胞RNA测序数据中推断的细胞间通信,并用CellChat评估细胞群的重要性。以下将以postR和postNR数据为例展示结果,preR和preNR的分析类似。经过数据预处理后,postR和postNR的单细胞RNA测序数据分别被划分为11和12个细胞群。为了研究不同细胞群对ICI治疗的影响,使用CellChat推断细胞群之间的通信。随后,在postR数据中识别出37个显著的配体-受体相互作用,这些相互作用涉及11个免疫响应相关的通路; 在postNR数据中,识别出46个显著的配体-受体相互作用,涉及14个免疫响应相关的通路。由于处理过程相同,接下来的分析将仅以每个数据集中的一个信号通路为例。图5(a)和图5(b)分别展示了来自postR数据的MHC-II信号网络和来自postNR数据的MHC-I信号网络(图中节点的不同颜色代表不同的细胞群,节点的大小与细胞群中的细胞数量成正比。箭头从源节点指向目标节点,边的颜色与信号源一致。边的宽度表示通信概率。)。在MHC-II信号通路中,细胞群3,5,6和10通过多个细胞群传递信号。类似地,在MHC-I信号通路中,信号传递发生在细胞群1,2,4,5,7,8,10和11中。细胞群的重要性将通过其作为目标的频率来评估。
图5 推断信号通路的圆形图
Figure 5 Circle plot of inferred signal pathways
本文通过整合批量RNA测序和单细胞RNA测序数据,并引入细胞群重要性,开发了DMCPLR模型,显著提高了黑色素瘤ICI治疗响应的预测性能。实验结果表明:DMCPLR的平均预测准确率显著优于13种对照方法,同时展现出更低的假阴性率(即更少的治疗响应者被误判为非响应者);消融分析实验也证实了细胞群权重机制的引入是性能提升的关键因素。实际上,每个细胞群中单个细胞对ICI响应的影响存在差异。因此,如何量化单个细胞的重要性将是未来研究的一个关键方向。
[1] ARNOLD M, SINGH D, LAVERSANNE M, et al. Global burden of cutaneous melanoma in 2020 and projections to 2040[J]. JAMA Dermatology, 2022, 158(5): 495-503.
[2] GUO W N, WANG H N, LI C Y. Signal pathways of melanoma and targeted therapy[J]. Signal Transduction and Targeted Therapy, 2021, 6(1): 424.
[3] YIN X M, LIAO H, YUN H, et al. Artificial intelligence-based prediction of clinical outcome in immunotherapy and targeted therapy of lung cancer[J]. Seminars in Cancer Biology, 2022, 86: 146-159.
[4] CONROY J M, PABLA S, NESLINE M K, et al. Next generation sequencing of PD-L1 for predicting response to immune checkpoint inhibitors[J]. Journal for Immunotherapy of Cancer, 2019, 7(1): 18.
[5] ANAGNOSTOU V, NIKNAFS N, MARRONE K, et al. Multimodal genomic features predict outcome of immune checkpoint blockade in non-small-cell lung cancer[J]. Nature Cancer, 2020, 1(1): 99-111.
[6] LITCHFIELD K, READING J L, PUTTICK C, et al. Meta-analysis of tumor- and T cell-intrinsic mechanisms of sensitization to checkpoint inhibition[J]. Cell, 2021, 184(3): 596-614.e14.
[7] TABARI A, COX M, D′AMORE B, et al. Machine learning improves the prediction of responses to immune checkpoint inhibitors in metastatic melanoma[J]. Cancers, 2023, 15(10): 2700.
[8] GUO Q H, XIANG S, LI J T. Second-order polynomial regularized logistic regression for predicting melanoma patients response to immune checkpoint inhibitors[C]∥ Proceedings of 2024 Chinese Intelligent Systems Conference. Cham: Springer, 2024: 610-617.
[9] LIGERO M, GARCIA-RUIZ A, VIAPLANA C, et al. Artificial intelligence combining radiomics and clinical data for predicting response to immunotherapy[J]. Annals of Oncology, 2019, 30: 476.
[10] CHOWELL D, YOO S K, VALERO C, et al. Improved prediction of immune checkpoint blockade efficacy across multiple cancer types[J]. Nature Biotechnology, 2022, 40(4): 499-506.
[11] ZHANG S N, LI M Y, TAN Y L, et al. Identification of mutational signature for lung adenocarcinoma prognosis and immunotherapy prediction[J]. Journal of Molecular Medicine, 2022, 100(12): 1755-1769.
[12] KONG J, HA D, LEE J H, et al. Network-based machine learning approach to predict immunotherapy response in cancer patients[J]. Nature Communications, 2022, 13(1): 3703.
[13] VALDES-MORA F, HANDLER K, LAW AMK, et al. Single-cell transcriptomics in cancer immunobiology: the future of precision oncology[J]. Frontiers in Immunology, 2018, 9: 2582.
[14] ZHANG Z, WANG Z X, CHEN Y X, et al. Integrated analysis of single-cell and bulk RNA sequencing data reveals a pan-cancer stemness signature predicting immunotherapy response[J]. Genome Medicine, 2022, 14(1): 45.
[15] SUN D C, GUAN X N, MORAN A E, et al. Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data[J]. Nature Biotechnology, 2022, 40(4): 527-538.
[16] LI J T, ZHANG H M, MU B Y, et al. Identifying phenotype-associated subpopulations through LP_SGL[J]. Briefings in Bioinformatics, 2023, 25(1): bbad424.
[17] BARRETT T, TROUP D B, WILHITE S E, et al. NCBI GEO: archive for high-throughput functional genomic data[J]. Nucleic Acids Research, 2009, 37(Database issue): D885-D890.
[18] ULLOA-MONTOYA F, LOUAHED J, DIZIER B, et al. Predictive gene signature in MAGE-A3 antigen-specific cancer immunotherapy[J]. Journal of Clinical Oncology, 2013, 31(19): 2388-2395.
[19] BREHENY P, HUANG J. Penalized methods for bi-level variable selection[J]. Statistics and Its Interface, 2009, 2(3): 369-380.
[20] CHEN M, LI Y X, ZHOU S M, et al. Establishment of a risk prediction model for olfactory disorders in patients with transnasal pituitary tumors by machine learning[J]. Scientific Reports, 2024, 14(1): 12514.
[21] SARKAR J P, SAHA I, SARKAR A, et al. Machine learning integrated ensemble of feature selection methods followed by survival analysis for predicting breast cancer subtype specific miRNA biomarkers[J]. Computers in Biology and Medicine, 2021, 131: 104244.