联系我们
2023-03-11 11:10 点击次数:68
2022白菜网总站大全 2022白菜网总站大全
视觉识别的快速发展始于 Vision transformer (ViT) 的引入,其很快取代了传统卷积神经汇集 (ConvNet),成为开首进的图像分类模子。另一方面, ViT 模子在包括指标检测、语义分割等一系列计议机视觉任务中存在好多挑战。因此,有扣问者提倡分层 Transformer(如 Swin Transformer),他们从头引入 ConvNet 先验,这么使得 Transformer 看成通用视觉骨干骨子上可行,并在各式视觉任务上发扬出超卓的性能。
然则,这种搀杂形状的灵验性在很猛进度上仍归功于 Transformer 的内在上风,而不是卷积固有的归纳偏置。在这项责任中,来自 FAIR 、UC 伯克利的扣问者从头搜检了遐想空间并测试了纯 ConvNet 所能达到的极限。扣问者逐渐将范例 ResNet「升级(modernize」为视觉 Transformer 的遐想,并在此经过中发现了导致性能各异的几个要津组件。
扣问者将这一系列纯 ConvNet 模子,定名为 ConvNeXt。ConvNeXt 十足由范例 ConvNet 模块构建,在准确性和可膨胀性方面 ConvNeXt 取得了与 Transformer 具有竞争力的效能,达到 87.8% ImageNet top-1 准确率,在 COCO 检测和 ADE20K 分割方面优于 Swin Transformer,同期保握范例 ConvNet 的简单性和灵验性。
值得一提的是,该论文一看成刘壮(Zhuang Liu),是大名鼎鼎 DenseNet 的共归并作,凭借论文《Densely Connected Convolutional Networks》,摘得 CVPR 2017 最好论文奖。作家谢赛宁是ResNeXt的一作。
升级卷积神经汇集
该扣问梳理了从 ResNet 到近似于 Transformer 的卷积神经汇集的发展轨迹。该扣问凭据 FLOPs 计议两种模子大小,一种是 ResNet-50 / Swin-T 机制,其 FLOPs 约为 4.5×10^9,另一种是 ResNet-200 / Swin-B 机制,其 FLOPs 约为 15.0×10^9。为简单起见,该扣问使用 ResNet-50 / Swin-T 复杂度模子展示实践效能。
为了探究 Swin Transformer 的遐想和范例卷积神经汇集的简单性,该扣问从 ResNet-50 模子动身,率先使用用于纯熟视觉 Transformer 的近似纯熟形状对其进行纯熟,与原始 ResNet-50 比较的效能标明性能获取了很大的普及,并将纠正后的效能看成基线。
然后该扣问制定了一系列遐想决策,追忆为 1) 宏不雅遐想,2) ResNeXt,3) 回转瓶颈,4) 卷积核大小,以及 5) 各式逐层微遐想。下图 2 展示了「升级汇集」每一步的终局经过和效能,通盘模子都是在 ImageNet-1K 上进行纯熟和评估的。由于汇集复杂度和最终性能密切关联,因此该扣问在探索经过中寂然扬弃了 FLOPs。
纯熟形状
除了汇集架构的遐想,纯熟经过也会影响最终性能。视觉 Transformer 不仅带来了一些新的架构遐想决策和模块,况兼还为视觉领域引入了多种纯熟形状(举例 AdamW 优化器)。这主要与优化计策和关联的超参数建筑相关。
因此,该扣问第一步使用视觉 Transformer 纯熟纪律纯熟基线模子(ResNet50/200)。2021 年 Ross Wightman 等东谈主的论文《 An improved training procedure in timm 》展示了一组显赫提高 ResNet-50 模子性能的纯熟形状。而在本篇论文中,扣问者使用了一种近似于 DeiT 和 Swin Transformer 的纯熟形状。纯熟从 ResNet 原始的 90 个 epoch 膨胀到了 300 个 epoch。
该扣问使用了 AdamW 优化器、Mixup、Cutmix、RandAugment、就地擦除(Random Erasing)等数据增强技巧,以及就地深度和标签平滑(Label Smoothing)等正则化有计议。这种纠正的纯熟有计议将 ResNet-50 模子的性能从 76.1% 提高到了 78.8%(+2.7%),这意味着传统 ConvNet 和视觉 Transformer 之间很大一部分性能各异可能是纯熟手段导致的。
宏不雅遐想
该扣问第二步分析了现时 Swin Transformer 的宏不雅汇集遐想。Swin Transformer 使用近似于卷积神经汇集的多阶段遐想,每个阶段具有不同的特征图永诀率。其中两个进军的遐想考量是阶段计议比和骨干架构。
一方面,ResNet 中跨阶段计议分散的原始遐想很猛进度上是受实践影响的。另一方面,Swin-T 顺从疏通的原则,但阶段计议比略有不同。该扣问将每个阶段的块数从 ResNet-50 中的 (3, 4, 6, 3) 调治为 (3, 3, 9, s3),使得 FLOPs 与 Swin-T 对皆。这将模子准确率从 78.8% 提高到了 79.4%。
经常,骨干架构要点热心汇集奈何管制输入图像。由于当然图像中固有的冗余性,平时架构在范例 ConvNet 和视觉 Transformer 中积极地将输入图像下采样到符合的特征图大小。范例 ResNet 中包含一个步长为 2 的 7×7 卷积层和一个最大池,这让输入图像可进行 4 倍下采样。而视觉 Transformer 使用了「patchify」计策,Swin Transformer 诚然使用近似的「patchify」层,但使用更小的 patch 大小来适合架构的多阶段遐想。该扣问将 ResNet 骨干架构替换为使用 4×4、步长为 4 的卷积层终局的 patchify 层,准确率从 79.4% 普及为 79.5%。这标明 ResNet 的骨干架构不错用更简单的 patchify 层替代。
ResNeXt-ify2022白菜网总站大全
第三步该扣问尝试接受 ResNeXt [82] 的念念路,ResNeXt 比平时的 ResNet 具有更好的 FLOPs / 准确率量度。中枢组件是分组卷积,其中卷积滤波器被分红不同的组。ResNeXt 的指令原则是「使用更多的组,扩大宽度」。更准确地说,ResNeXt 对瓶颈块中的 3×3 卷积层接受分组卷积。由于显赫镌汰了 FLOPs,因此这膨胀了汇集宽度以抵偿容量亏损。
该扣问使用分组卷积的一种特殊情况——深度卷积(depthwise convolution),其中组数就是通谈数。深度卷积已被 MobileNet [32] 和 Xception [9] 使用。扣问者提防到,深度卷积近似于自提防力中的加权乞降操作,在每个通谈的基础上进行操作,即仅在空间维度上搀杂信息。深度卷积的使用灵验地镌汰了汇集的 FLOPs。按照 ResNeXt 中提倡的计策,该扣问将汇集宽度增多到与 Swin-T 的通谈数疏通(从 64 增多到 96)。跟着 FLOPs (5.3G) 的增多,汇集性能达到了 80.5%。
回转瓶颈
Transformer 中一个进军的遐想是创建了回转瓶颈,即 MLP 块的隐敝维度比输入维度宽四倍,如下图 4 所示。意旨道理意旨道理的是,Transformer 的这种遐想与卷积神经采齐集使用的膨胀比为 4 的回转瓶颈遐想相关联。
因此该扣问第四步探索了回转瓶颈的遐想。如下图 3 所示,尽管深度卷积层的 FLOPs 增多了,但由于下采样残差块的 shortcut 1×1 卷积层的 FLOPs 显赫减少,通盘这个词汇集的 FLOPs 减少到 4.6G。意旨道理意旨道理的是,这会让性能从 80.5% 略略提高至 80.6%。在 ResNet-200 / Swin-B 有计议中,联系我们这一步带来了更多的性能普及——从 81.9% 普及到 82.6%,同期也减少了 FLOPs。
卷积核大小
第五步该扣问探索了大型卷积核的作用。视觉 Transformer 最显赫的特色是其非局部自提防力,每一层都具有全局感受野。诚然已有卷积神经汇集使用了大卷积核,但黄金范例(VGGNet [62] )是堆叠小卷积核(3×3)的卷积层。尽管 Swin Transformer 从头将局部窗口引入到自提防力块中,但窗口大小至少为 7×7,光显大于 3×3 的 ResNe(X)t 卷积核大小。因此该扣问从头扫视了在卷积神经采齐集使用大卷积核的作用。
进取出动深度卷积层。要探索大卷积核,一个先决要求是进取出动深度卷积层的位置(如图 3(c) 所示)。近似地,Transformer 中也将 MSA 块舍弃在 MLP 层之前。由于依然建筑一个回转瓶颈块,复杂、低效的模块(MSA、大卷积核)通谈变少,而高效、密集的 1×1 层将完成忙碌的责任。因此这个中间门径将 FLOPs 减少到 4.1G,导致性能暂时下落到 79.9%。
增大卷积核。经过上述准备责任,接受更大的卷积核是具有显赫上风的。该扣问尝试了几种卷积核大小:3、5、7、9、11。汇集的性能从 79.9% (3×3) 提高为 80.6% (7×7),而汇集的 FLOPs 大要保握不变。
此外,扣问者不雅察到较大的卷积核的克己是在 7×7 处会达到满盈点,并在大容量模子中考据了这种举止。当卷积核大小跳动 7×7 时,ResNet-200 机制模子莫得发扬出进一步的增益。因此该扣问在每个块中都使用了 7×7 深度卷积。
至此,宏不雅模范汇集架构的升级调治依然完成。
微不雅遐想
下一步扣问者探究了一些微不雅模范上的架构各异——这里的大部分探索都是在层级完成的,要点是激活函数和归一化层的具体采用。
用 GELU 替代 ReLU。跟着时刻的推移,扣问者依然开导了许多激活函数,但 ReLU 由于其简单性和灵验性,仍然在 ConvNet 中凡俗使用。ReLU 也被用作原始 Transformer 中的激活函数。GELU 不错被以为是 ReLU 的更平滑变体,被用于开首进的 Transformer,包括 Google 的 BERT 和 OpenAI 的 GPT-2 ,以及 ViT 等。该扣问发现 ReLU 在 ConvNet 中也不错用 GELU 代替,准确率保握不变(80.6%)。
更少的激活函数。Transformer 和 ResNet 块之间的一个小区别是 Transformer 的激活函数较少。如图 4 所示,该扣问从残差块中排斥了通盘 GELU 层,除了在两个 1×1 层之间的 GELU 层,这是复制了 Transformer 块的作风。这个经过将效能提高了 0.7% 到 81.3%,骨子上与 Swin-T 性能相配。
更少的归一化层。Transformer 块经常也具有较少的归一化层。在这里,该扣问删除了两个 BatchNorm (BN) 层,在 conv 1 × 1 层之前只留住一个 BN 层。这进一步将性能普及至 81.4%,依然跳动了 Swin-T 的效能。请提防,该扣问的每个块的归一化层比 Transformer 还要少,扣问东谈主员发面前块的开头添加一个格外的 BN 层并弗成提高性能。
用 LN 代替 BN。BatchNorm(BN)是 ConvNet 中的进军构成部分,因为它提高了不休性并减少了过拟合。然则,BN 也有许多狼藉有致的东西,可能会对模子的性能产生不利影响 。扣问者曾屡次尝试开导替代有计议,但 BN 仍然是大多量视觉任务的首选形状。在原始 ResNet 中径直用 LN 代替 BN 性能欠佳。跟着汇集架构和纯熟技巧的纠正,该扣问从头扫视使用 LN 代替 BN 的影响,得出 ConvNet 模子在使用 LN 纯熟时莫得任何难熬;骨子上,性能会纠正一些,获取了 81.5% 的准确率。
分离式(Separate)下采样层。在 ResNet 中,空间下采样是通过每个 stage 运行时的残差块来终局的,使用 stride =2 的 3×3 卷积。在 Swin Transformer 中,在各个 stage 之间添加了一个分离式下采样层。该扣问探索了一种近似的计策,在该计策中,扣问者使用 stride =2 的 2×2 卷积层进行空间下采样。令东谈主诧异的是,这种调动会导致不同的纯熟效能。进一步走访标明,在空间永诀率发生变化的方位添加归一化层有助于踏实纯熟。该扣问不错将准确率提高到 82.0%,大大跳动 Swin-T 的 81.3%。该扣问接受分离式下采样层,得到了最终模子 ConvNeXt。ResNet、Swin 和 ConvNeXt 块结构的比较如图 4 所示。
ResNet-50、Swin-T 和 ConvNeXt-T 的详备架构表率的比较如表 9 所示。
实践
ImageNet 实践评估
该扣问构建了不同的 ConvNeXt 变体,ConvNeXtT/S/B/L,与 Swin-T/S/B/L 具有相同的复杂性,可进行对标实践评估。此外,该扣问还构建了一个更大的 ConvNeXt-XL 来进一步测试 ConvNeXt 的可膨胀性。不同变体模子的区别在于通谈数、模块数,详备信息如下:
Results ImageNet-1K:下表是 ConvNeXt 与 Transformer 变体 DeiT、Swin Transformer,以及 RegNets 和 EfficientNets 的效能比较。
由效能可得:ConvNeXt 在准确率 - 计议量度以及推理朦拢量方面取得了与 ConvNet 基线(RegNet 和 EfficientNet )具有竞争力的效能;ConvNeXt 的性能也全面优于具有近似复杂性的 Swin Transformer;与 Swin Transformers 比较,ConvNeXts 在莫得诸如移位窗口或相对位置偏置等成心模块的情况下也具有更高的朦拢量。
ImageNet-22K:下表(表头参考上表)中展示了从 ImageNet-22K 预纯熟中微调的模子的效能。这些实践很进军,因为东谈主们广博以为视觉 Transformer 具有较少的归纳偏置,因此在大规模预纯熟时不错比 ConvNet 发扬更好。该扣问标明,在使用大型数据集进行预纯熟时,正确遐想的 ConvNet 并不逊于视觉 Transformer——ConvNeXt 的性能仍然与近似大小的 Swin Transformer 相配或更好,朦拢量略高。此外,该扣问提倡的 ConvNeXt-XL 模子终局了 87.8% 的准确率——在 384^2 处比 ConvNeXt-L 有了相配大的纠正,解释了 ConvNeXt 是可膨胀的架构。
Isotropic ConvNeXt 与 ViT 对比:在消融实践中,扣问者使用与 ViT-S/B/L (384/768/1024) 疏通的特征尺寸构建 isotropic ConvNeXt-S/B/L。深度建筑为 18/18/36 以匹配参数和 FLOP 的数目,块结构保握不变(图 4)。ImageNet-1K 在 224^2 永诀率下的效能如表 2 所示。效能清楚 ConvNeXt 的性能与 ViT 相配,这标明 ConvNeXt 块遐想在用于非分层模子时仍具有竞争力。
下流任务评估
在 COCO 上的指标检测和分割扣问:该扣问以 ConvNeXt 为骨干,在 COCO 数据集上微调 Mask R-CNN 和 Cascade Mask R-CNN 。表 3 比较了 Swin Transformer、ConvNeXt 和传统 ConvNet(如 ResNeXt)在指标检测和实例分割上的效能。效能标明在不同的模子复杂性中,ConvNeXt 的性能与 Swin Transformer 相配或更好。
基于 ADE20K 的语义分割:在表 4 中,该扣问论说了具有多模范测试的考据 mIoU。ConvNeXt 模子不错在不同的模子容量上终局具有竞争力的性能,进一步考据了 ConvNeXt 遐想的灵验性。