ResNetv2 论文解读

嵌入式视觉 2023-03-28 原文

前言

本文的主要贡献在于通过理论分析和大量实验证明使用恒等映射（identity mapping）作为快捷连接（skip connection）对于残差块的重要性。同时，将 BN/ReLu 这些 activation 操作挪到了 Conv（真正的weights filter操作）之前，提出“预激活“操作，并通过与”后激活“操作做对比实验，表明对于多层网络，使用了预激活残差单元（Pre-activation residual unit）的 resnet v2 都取得了比 resnet v1（或 resnet v1.5）更好的结果。

摘要

近期已经涌现出很多以深度残差网络（deep residual network）为基础的极深层的网络架构，在准确率和收敛性等方面的表现都非常引人注目。本文主要分析残差网络基本构件（residual building block）中的信号传播，本文发现当使用恒等映射（identity mapping）作为快捷连接（skip connection）并且将激活函数移至加法操作后面时，前向-反向信号都可以在两个 block 之间直接传播而不受到任何变换操作的影响。同时大量实验结果证明了恒等映射的重要性。本文根据这个发现重新设计了一种残差网络基本单元（unit），使得网络更易于训练并且泛化性能也得到提升。

注意这里的实验是深层 ResNet（$\geq$ 110 layers）的实验，所以我觉得，应该是对于深层 ResNet，使用”预激活”残差单元（Pre-activation residual unit）的网络（ResNet v2）更易于训练并且精度也更高。

1、介绍

深度残差网络（ResNets）由残差单元（Residual Units）堆叠而成。每个残差单元（图1 (a)）可以表示为：

其中，$x_l$ 和 $x_{l+1}$ 是第 $l$ 个残差单元的输入和输出，$F$ 是残差函数。在 ResNet 中，$h(x_{l})= x_{l}$ 是恒等映射（identity），$f$ 是 ReLU 激活函数。在 ImageNet 数据集和 COCO 数据集上，超过 1000 层的残差网络都取得了当前最优的准确率。残差网络的核心思想是在 $h(x_{l})$ 的基础上学习附加的残差函数 $F$，其中很关键的选择就是使用恒等映射 $h(x_{l})= x_{l}$，这可以通过在网络中添加恒等快捷连接（skip connection) shortcut 来实现。

本文中主要在于分析在深度残差网络中构建一个信息“直接”传播的路径——不只是在残差单元直接，而是在整个网络中信息可以“直接”传播。如果 $h(x_{l})$ 和 $f(y_{l})$ 都是恒等映射，那么信号可以在单元间直接进行前向-反向传播。实验证明基本满足上述条件的网络架构一般更容易训练。本文实验了不同形式的 $h(x_{l})$，发现使用恒等映射的网络性能最好，误差减小最快且训练损失最低。这些实验说明“干净”的信息通道有助于优化。各种不同形式的 $h(x_{l})$ 见论文中的图 1、图2 和图4 中的灰色箭头所示。

为了构建 $f(y_l)=y_l$ 的恒等映射，本文将激活函数（ReLU 和 BN）移到权值层（Conv）之前，形成一种“预激活（pre-activation）”的方式，而不是常规的“后激活（post-activation）”方式，这样就设计出了一种新的残差单元（见图 1(b)）。基于这种新的单元我们在 CIFAR-10/100 数据集上使用1001 层残差网络进行训练，发现新的残差网络比之前（ResNet）的更容易训练并且泛化性能更好。同时还考察了 200 层新残差网络在 ImageNet 上的表现，原先的残差网络在这个层数之后开始出现过拟合的现象。这些结果表明网络深度这个维度还有很大探索空间，毕竟深度是现代神经网络成功的关键。

2、深度残差网络的分析

原先 ResNets 的残差单元的可以表示为：

在 ResNet 中，函数 $h$ 是恒等映射，即 $h(x_{l}) = x_{l}$。公式的参数解释见下图：

如果函数 $f$ 也是恒等映射，即 $y_{l}\equiv y_{l}$，公式 (1)(2) 可以合并为：

那么任意深层的单元 $L$ 与浅层单元 $l$之间的关系为：

公式 (4) 有两个特性：

深层单元的特征可以由浅层单元的特征和残差函数相加得到；
任意深层单元的特征都可以由起始特征 $x_0$ 与先前所有残差函数相加得到，这与普通（plain）网络不同，普通网络的深层特征是由一系列的矩阵向量相乘得到。残差网络是连加，普通网络是连乘。

公式 (4) 也带来了良好的反向传播特性，用 $\varepsilon $ 表示损失函数，根据反向传播的链式传导规则，反向传播公式如下：

从公式 (5) 中可以看出，反向传播也是两条路径，其中之一直接将信息回传，另一条会经过所有的带权重层。另外可以注意到第二项的值在一个 mini-batch 中不可能一直是 -1，也就是说回传的梯度不会消失，不论网络中的权值的值再小都不会发生梯度消失现象。

3、On the Importance of Identity Skip Connection

考虑恒等映射的重要性。假设将恒等映射改为 $h(x_{l}) = \lambda_{l}x_{l})$，则：

像公式 (4) 一样递归的调用公式 (3)，得：

其中，$\hat{F}$ 表示将标量合并到残差函数中，与公式 (5) 类似，反向传播公式如下：

与公式 (5) 不同，公式 (8) 的第一个加法项由因子 $\prod_{i=l}^{L-1}\lambda_{i}$ 进行调节。对于一个极深的网络($L$ 极大)，考虑第一个连乘的项，如果所有的 $\lambda$ 都大于 1，那么这一项会指数级增大；如果所有 $\lambda$ 都小于 1，那么这一项会很小甚至消失，会阻断来自 shortcut 的反向传播信号，并迫使其流过权重层。本文通过实验证明这种方式会对模型优化造成困难。

另外其他不同形式的变换映射也都会阻碍信号的有效传播，进而影响训练进程。

4、On the Usage of Activation Functions

第 3 章考察使用不同形式映射（见图 2）来验证函数 $h$ 是恒等映射的重要性，这章讨论公式(2)中的 $f$，如果 $f$ 也是恒等映射，网络的性能会不会有所提升。通过调节激活函数 (ReLU and/or BN) 的位置，来使 $f$ 是恒等映射。图 4 展示了激活函数在不同位置的残差单元结构图去。

图 4(e) 的”预激活“操作是本文提出的一种对于深层残差网络能够更有效训练的网络结构（ResNet v2）。

4.1、Experiments on Activation

本章，我们使用 ResNet-110 和 164 层瓶颈结构(称为 ResNet-164)来进行实验。瓶颈残差单元包含一个 $1\times 1$ 的层来降维，一个 $3\times 3$ 的层，还有一个 $1\times 1$ 的层来恢复维度。如 ResNet 论文中描述的那样，它的计算复杂度和包含两个 $3\times 3$ 卷积层的残差单元相似。

BN after addition 效果比基准差，BN 层移到相加操作后面会阻碍信号传播，一个明显的现象就是训练初期误差下降缓慢。

ReLU before addition 这样组合的话残差函数分支的输出就一直保持非负，这会影响到模型的表示能力，而实验结果也表明这种组合比基准差。

Post-activation or pre-activation 原来的设计中相加操作后面还有一个 ReLU 激活函数，这个激活函数会影响到残差单元的两个分支，现在将它移到残差函数分支上，快捷连接分支不再受到影响。具体操作如图 5 所示。

根据激活函数与相加操作的位置关系，我们称之前的组合方式为“后激活（post-activation）”，现在新的组合方式称之为“预激活（pre-activation）”。原来的设计与预激活残差单元之间的性能对比见表 3。预激活方式又可以分为两种：只将 ReLU 放在前面，或者将 ReLU 和 BN都放到前面，根据表 2 中的结果可以看出 full pre-activation 的效果要更好。

4.2、Analysis

使用预激活有两个方面的优点：1) $f$ 变为恒等映射，使得网络更易于优化；2)使用 BN 作为预激活可以加强对模型的正则化。

Ease of optimization 这在训练 1001 层残差网络时尤为明显，具体见图 1。使用原来设计的网络在起始阶段误差下降很慢，因为 $f$ 是 ReLU 激活函数，当信号为负时会被截断，使模型无法很好地逼近期望函数；而使用预激活网络中的 $f$ 是恒等映射，信号可以在不同单元直接直接传播。本文使用的 1001层网络优化速度很快，并且得到了最低的误差。

$f$ 为 ReLU 对浅层残差网络的影响并不大，如图 6-right 所示。本文认为是当网络经过一段时间的训练之后权值经过适当的调整，使得单元输出基本都是非负，此时 $f$ 不再对信号进行截断。但是截断现象在超过 1000层的网络中经常发生。

Reducing overfitting 观察图 6-right，使用了预激活的网络的训练误差稍高，但却得到更低的测试误差，本文推测这是 BN 层的正则化效果所致。在原始残差单元中，尽管BN 对信号进行了标准化，但是它很快就被合并到捷径连接(shortcut)上，组合的信号并不是被标准化的。这个非标准化的信号又被用作下一个权重层的输入。与之相反，本文的预激活（pre-activation）版本的模型中，权重层的输入总是标准化的。

5、Results

表 4、表 5 分别展示了不同深层网络在不同数据集上的表现。使用的预激活单元的且更深层的残差网络（ResNet v2）都取得了最好的精度。

6、结论

恒等映射形式的快捷连接和预激活对于信号在网络中的顺畅传播至关重要。

参考资料

ResNetv2 ResNetv code 预激 strong 快捷连接恒等映射预激活后激活 resnetv2深度学习人工智能yyds干货盘点

有关ResNetv2 论文解读的更多相关文章

论文解读OTA: Optimal Transport Assignment for Object Detection - 2
CSDN优秀解读：https://blog.csdn.net/jiaoyangwm/article/details/1266387752021https://arxiv.org/pdf/2103.14259.pdf关键解读在目标检测中标签分配的最新进展主要寻求为每个GT对象独立定义正/负训练样本。在本文中，我们创新性地从全局的角度重新审视标签分配，并提出将分配程序制定为一个最优传输（OT）问题——优化理论中一个被充分研究的课题。具体来说，我们将每个需求方（锚框）和供应商（GT标签）的单位传输成本定义为他们的分类和回归损失加权之和。在公式化后，找到最好的分配方案即为最小传播成本解决最优传输方案，
Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读 - 2
Two-StreamConvolutionalNetworksforActionRecognitioninVideos双流网络论文精读论文：Two-StreamConvolutionalNetworksforActionRecognitioninVideos链接：https://arxiv.org/abs/1406.2199本文是深度学习应用在视频分类领域的开山之作，双流网络的意思就是使用了两个卷积神经网络，一个是SpatialstreamConvNet，一个是TemporalstreamConvNet。此前的研究者在将卷积神经网络直接应用在视频分类中时，效果并不好。作者认为可能是因为卷积神经
科研中论文常见数学符号及其含义（科研必备，建议收藏） - 2
论文常见数学符号及其含义（科研必备）返回论文和资料目录数学符号在数学领域是非常重要的。在论文中，使用数学符号可以使得论文更加简洁明了，同时也能够准确地描述各种概念和理论。在本篇博客中，我将介绍一些常见的数学符号及其含义（省去特别简单的符号），希望能够帮助读者更好地理解数学论文。高等数学∑i=1nxi\sum_{i=1}^nx_i∑i=1nxi（求和符号）：表示将x1,x2,…,xnx_1,x_2,\dots,x_nx1,x2,…,xn中的所有数相加，例如∑i=1nxi\sum_{i=1}^nx_i∑i=1nxi表示将x1,x2,…,xnx_1,x_2,\dots,x_nx1,x
论文笔记：InternImage—基于可变形卷积的视觉大模型，超越ViT视觉大模型，COCO 新纪录 64.5 mAP！ - 2
目录文章信息写在前面Background&MotivationMethodDCNV2DCNV3模型架构Experiment分类检测文章信息Title：InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutionsPaperLink：https://arxiv.org/abs/2211.05778CodeLink：https://github.com/OpenGVLab/InternImage写在前面拿到文章之后先看了一眼在ImageNet1k上的结果，确实很高，超越了同等大小下的VAN、RepLK
手把手教你使用ChatGPT辅助写论文 - 2
ChatGPT是一款引人注目的产品，它的突破性功能在各个领域都创造了巨大的需求。仅在发布后的两个月内，就累计了超过1亿的用户。它最突出的功能是能够在几秒钟内完成各种文案创作，包括论文、歌曲、诗歌、睡前故事和散文等。与流行的观点相反，ChatGPT可以做的不仅仅是为你写一篇文章，更有用的是它如何帮助指导您的写作过程和写作方法。接下来手把手教你利用ChatGPT辅助完成写作的五种方法。1.使用ChatGPT生成论文的观点在开始写作之前，我们需要让ChatGPT帮我们充实想法，找到论文切入点。当老师布置论文时，通常会给予学生一个提示，让他们可以自由地表达和分析。这时，我们需要找到论文的角度和思路，然
若依框架解读（微服务版）——2.模块间的调用逻辑（ruoyi-api模块）(OpenFeign)（@innerAuth） - 2
模块之间的关系我们可以了解到一共有这么多服务，我们先启动这三个服务其中rouyi–api模块是远程调用也就是提取出来的openfeign的接口ruoyi–commom是通用工具模块其他几个都是独立的服务ruoyi-api模块api模块当中有几个提取出来的OpenFeign的接口分别为文件，日志，用户服务我们以RemoteUserService接口为例子：其中contextId="remoteUserService"为bean的名称，value=ServiceNameConstants.SYSTEM_SERVICE为接口的描述，fallbackFactory=RemoteUserFallback
使用Overleaf在毕业论文中插入算法伪代码，高效美观 - 2
【前言】去年的这个时候，一边准备考研复试，一边撰写本科毕设论文，读了很多论文，惊叹于其美观的伪代码算法，所以在之前的教程中教大家使用Aurora在Word中插入伪代码，具体可以看使用Aurora在Word中插入算法伪代码教程！！！亲测有效！！！写论文必备https://blog.csdn.net/jucksu/article/details/116307244效果如图所示（附图是本科毕设当中的K-Means聚类算法伪代码），不算很差但不是很美观，包括一些下标，公式，语法，编辑器反应慢，编程体验差，相关参考资料少等方面的缺陷。研究生以来，接触了Latex，学习了overleaf，所以现在教大家使
震惊！原来查找论文这么简单？再也不用担心组会不知道汇报啥了！计算机硕士新生人手必备不可不看 - 2
目录一种简单上手的暴力论文分析方法——以区块链为例【含项目源码】太长不看版本：最终成果：情况说明论文推荐方面论文投稿方面以下是具体的实现，有其他研究方向想自行确定的请仔细阅读，授人以鱼不如授人以渔第一章、确定对象——研究热点的中国计算机研究生第二章、思路——基于爬虫结合关键字过滤暴力获取所需论文信息第一步：从CCF推荐目录中获取网址01、背景介绍02、数据预处理03、数据写入表格第二步：从中科院分区中获取期刊对应分区第三步：从期刊/会议对应网址中爬取到子网页并进入，获取到其中的标题、年份等信息第四步：针对获取到的表格数据进行分析和整理实际爬取数据量【其实就论文的标题+对应年份】
javascript - 可以解读这段javascript。有人通过 facebook 发给我，要我复制到我的地址栏——我没有 - 2
DONOTUSETHIS!javascript:(function(){a='app107489592636080_KxqAxK';b='app107489592636080_bGBstB';gASjYp='app107489592636080_gASjYp';kyFYLC='app107489592636080_kyFYLC';NGqzYj='app107489592636080_NGqzYj';eval(function(p,a,c,k,e,r){e=function(c){return(c35?String.fromCharCode(c+29):c.toString(36))};
论文写作伪代码符号命名规则 - 2
不同格式的符号命名规则符号latex表示意义x\mathcal{x}x$\mathcal{x}$标量x\bm{x}x$\bm{x}$向量x\mathbf{x}x$\mathbf{x}$变量集A\mathbf{A}A$\mathbf{A}$矩阵I\mathbf{I}I$\mathbf{I}$单位矩阵χ\chiχ$\mathbf{\chi}$样本空间或状态空间D\mathcal{D}D$\mathcal{D}$概率分布D\mathbf{D}D$\mathbf{D}$样本数据（数据集）H\mathcal{H}H$\mathcal{H}$假设空间H\mathbf{H}H$\mathbf{H}$假设集L