jjzjj

图像去模糊:MIMO-UNet 模型详解

空杯的境界 2024-01-13 原文

  本内容主要介绍实现图像去模糊的 MIMO-UNet 模型

论文Rethinking Coarse-to-Fine Approach in Single Image Deblurring

代码(官方):https://github.com/chosj95/MIMO-UNet

1. 背景

  由于深度学习的成功,基于卷积神经网络(CNN)的图像去模糊方法已被广泛研究,并显示出良好的性能。基于卷积神经网络的图像去模糊模型主要分为两大类。早期,采用两阶段图像去模糊框架,即基于 CNN 的模糊核估计阶段和基于模糊核的去模糊阶段。最近,直接以端到端的方式直接学习模糊-清晰图像对之间的复杂关系,即直接从模糊图像获得清晰图像,DeepDeblur 最早使用这种方案。采用这种端到端方式的模型基本上都是采用 从粗到细(Coarse-to-fine) 策略。

  目前,从粗到细(Coarse-to-fine)策略在单图像去模糊领域已经被广泛使用。常规方案通常是通过堆叠多尺度输入图像的子网络,并从底部子网络到顶部子网络逐渐提高图像的清晰度。虽然采用从粗到细策略的网络设计在图像去模糊任务中取得了不错的性能,但是这种性能的提升是以计算复杂度和内存使用量的增加为代价的。从而导致这些模型难以用于成本和时间敏感的环境(例如移动设备、车辆和机器人等场景)

2. 模型设计

  为了实现快速并准确的去模糊网络设计,作者通过重新思考从粗到细的策略,提出了一个多输入多输出 U-net(MIMO-UNet),其架构图详见图 1.1。MIMO-UNet 是一种基于单个编码器-解码器的 U 型网络,具有三个不同的特性:

  • MISE:MIMO-UNet 的单个编码器输入多尺度的输入图像,因此将其命名为多输入单编码器(Multi-input Single Encoder,MISE),以减轻训练的难度。
  • MOSD:MIMO-UNet 的单个解码器输出多个不同尺度的去模糊图像,因此将其命名为多输出单解码器(Multi-output Single Decoder,MOSD)。MOSD 虽然简单,但是其可以模仿由堆叠子网络组成的常规网络架构,并指导解码器层以从粗到细的方式逐渐恢复潜在的清晰图像。
  • AFF:非对称特征融合(Asymmetric Feature Fusion,AFF)有效地合并多尺度特征。AFF 输入不同尺度的特征,并合并编码器和解码器之间的多尺度信息流,以提高去模糊性能。

图 1.1 MIMO-UNet 架构图

2.1 MISE

  编码器由 3 个编码块(Encoder Block,EB)组成,具体的实现流程如下:

  1. 首先,使用一个 SCM(Shallow Convolutional Module,浅卷积模块)从下采样的模糊图像中提取特征,其输出表示为 SCM k out \text{SCM}_k^{\text{out}} SCMkout。注意:只在第二和第三层 EB 中使用 SCM。
  2. 然后,为了能够将 SCM 的输出( SCM k out \text{SCM}_k^{\text{out}} SCMkout)与上一层 EB 的输出( EB k − 1 out \text{EB}_{k-1}^{\text{out}} EBk1out)进行融合,需要对 EB k − 1 out \text{EB}_{k-1}^{\text{out}} EBk1out 进行一个 stride 为 2 的卷积操作(即图 1.1 中 EB 2 \text{EB}_2 EB2 EB 3 \text{EB}_3 EB3 中的紫色块),得到输出 ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^{\text{out}})^{\downarrow} (EBk1out),这样 SCM k out \text{SCM}_k^{\text{out}} SCMkout ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^{\text{out}})^{\downarrow} (EBk1out) 维度相同了。注意:由于第一层没有使用 SCM,所以 EB 1 \text{EB}_1 EB1 中紫色卷积块的 stride 为 1。
  3. 接着,将 SCM k out \text{SCM}_k^{\text{out}} SCMkout ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^{\text{out}})^{\downarrow} (EBk1out) 一起输入到一个 FAM(Feature Attention Module)中(即图 1.1 中 EB 2 \text{EB}_2 EB2 EB 3 \text{EB}_3 EB3 中的绿色块)。注意:只在第二和第三层使用 FAM。
  4. 最后,将 FAM 的输出送入到堆叠残差块中(即图 1.1 中 EB 1 \text{EB}_1 EB1 EB 2 \text{EB}_2 EB2 EB 3 \text{EB}_3 EB3 中的蓝色块)。每个残差块由 2 个 3 x 3 的卷积层组成。MIMO-UNet 堆叠 8 个这样的残差块,MIMO-UNet+ 堆叠 20 个这样的残差块。

2.1.1 SCM

  SCM(Shallow Convolutional Module,浅卷积模块) 用于从下采样图像中提取特征。其结构图详见图 1.2,具体的实现流程如下:

  1. 首先,堆叠两组 3 x 3 和 1 x 1 的卷积层。
  2. 然后,将上一步的输出与 SCM 的输入进行拼接。
  3. 最后,再连接一个 1 x 1 的卷积层。

图 1.2 SCM 结构图

2.1.2 FAM

  FAM(Feature Attention Module,特征注意力模块) 用来强调或抑制先前尺度(也就是上一层 EB 的输出)的特征,并从 SCM 中学习特征的空间、通道重要性。结构图详见图 1.3,具体的实现流程如下:

  1. 首先,将 ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^\text{out})^{\downarrow} (EBk1out) SCM k out \text{SCM}_k^{\text{out}} SCMkout 按元素相乘。(需要注意一下,原论文中 FAM 结构图(即图 1.3)中,标注的 ( EB k out ) ↓ (\text{EB}_{k}^\text{out})^{\downarrow} (EBkout) 是不正确的。)
  2. 然后,将上一步的输出传入一个 3 x 3 的卷积层。
  3. 最后,将上一步卷积层的输出与 ( EB k − 1 out ) ↓ (\text{EB}_{k-1}^\text{out})^{\downarrow} (EBk1out) 进行一个残差连接。

图 1.3 FAM 结构图

2.2 AFF

  为了在单个 U-Net 中实现不同尺度之间的信息流,作者提出了 AFF(Asymmetric Feature Fusion,非对称特征融合)。结构图详见图 1.4,具体的实现流程如下:

  1. 首先,将 3 个 EB 的输出特征进行 resize。
  2. 然后,将上一步 resize 后的特征进行拼接。
  3. 最后,使用卷积层对拼接后的特征进行融合(一个 1 x 1 和 一个 3 x 3 的卷积层)。

图 1.4 AFF 结构图

  每个 AFF 都能够接收所有编码块(EB)的输出作为输入。需要注意的是,每个 AFF 中 resize 后向量的维度是不一样的,具体计算公式如式(1.1)所示:

AFF 1 out = AFF 1 ( EB 1 out , ( EB 2 out ) ↑ , ( EB 3 out ) ↑ ) AFF 2 out = AFF 2 ( ( EB 1 out ) ↓ , EB 2 out , ( EB 3 out ) ↑ ) (1.1) \text{AFF}_1^{\text{out}} = \text{AFF}_1 \Big( \text{EB}_1^{\text{out}}, (\text{EB}_2^{\text{out}})^{\uparrow}, (\text{EB}_3^{\text{out}})^{\uparrow} \Big) \\ \text{AFF}_2^{\text{out}} = \text{AFF}_2 \Big( (\text{EB}_1^{\text{out}})^{\downarrow}, \text{EB}_2^{\text{out}}, (\text{EB}_3^{\text{out}})^{\uparrow} \Big) \tag{1.1} AFF1out=AFF1(EB1out,(EB2out),(EB3out))AFF2out=AFF2((EB1out),EB2out,(EB3out))(1.1)

其中, AFF n out \text{AFF}_n^{\text{out}} AFFnout 表示第 n n n 个 AFF 的输出。使用上采样( ↑ \uparrow )和下采样( ↓ \downarrow )是为了便于不同尺度的特征进行融合。MIMO-UNet 的每个解码块(DB)都能利用多尺度特征,从而提升模型去模糊的性能。

2.3 MOSD

  解码器也是由 3 个解码块(Decoder Block,DB)组成,具体的实现流程如下:

  1. 首先,将 AFF 的输出( AFF n out \text{AFF}_n^{\text{out}} AFFnout)与下一层 DB 的输出进行拼接。注意:只在 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 中有这个操作。
  2. 然后,将上一步拼接后的输出连接一个 1 x 1 的卷积(即图 1.1 中 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 中的第一个紫色块),进行一下特征融合。注意:只在 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 中有这个操作。
  3. 接着,将上一步的输出送入到堆叠残差块中(即图 1.1 中 DB 1 \text{DB}_1 DB1 DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中的蓝色块),其组成和 EB 中的残差块一样。
  4. 再次,连接一个转置卷积(即 DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中的黄色块),实现上采样效果。这样操作是为了将其输入到上一层 DB 后,能够与 AFF 的输出( AFF n out \text{AFF}_n^{\text{out}} AFFnout)进行拼接融合。注意:只在 DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中有这个操作。
  5. 最后,在每个 DB 中,第三步的残差块的输出都会连接一个 3 x 3 的卷积层,其输出通道为 3。这样操作是为了输出不同尺度的清晰图像。注意:在进行推理的时候, DB 2 \text{DB}_2 DB2 DB 3 \text{DB}_3 DB3 中的这个操作是可以不用进行的。

  上面的实现流程,通过公式表示如式(1.2)所示:

S ^ n = { o ( DB n ( AFF n out ; DB n + 1 out ) ) + B n , n = 1 , 2 o ( DB n ( EB n out ) ) + B n , n = 3 (1.2) \hat{S}_n = \left \{ \begin{array}{cc} o(\text{DB}_n(\text{AFF}_n^{\text{out}};\text{DB}_{n+1}^{\text{out}})) + B_n, &n=1,2 \\ o(\text{DB}_n(\text{EB}_n^{\text{out}})) + B_n, &n = 3 \end{array} \right. \tag{1.2} S^n={o(DBn(AFFnout;DBn+1out))+Bn,o(DBn(EBnout))+Bn,n=1,2n=3(1.2)

其中,函数 o o o 为上面第 5 步中的卷积操作。


2.4 损失函数

  和其他多尺度去模糊网络一样,使用多尺度内容损失函数。作者发现在 MIMO-UNet 中,L1 损失比 MSE 损失的效果更好。内容损失函数定义如式(1.3)所示:

L c o n t = ∑ k = 1 K 1 t k ∣ ∣ S k ^ − S k ∣ ∣ 1 (1.3) L_{cont} = \sum_{k=1}^K \frac{1}{t_k} ||\hat{S_k} - S_k||_1 \tag{1.3} Lcont=k=1Ktk1∣∣Sk^Sk1(1.3)

其中, K K K 是网络层级的数量(在这里是 3), t k t_k tk 是所有元素的数量,除以 t k t_k tk 的目的是为了进行归一化。

  研究表明,除了内容损失外的辅助损失项有助于提高模型性能。由于图像去模糊的目的是恢复丢失的高频部分,因此减少频率空间的差异是非常重要的。基于这个目的,作者提出了 MSFR(Multi-scale Frequency reconstruction,多尺度频率重建) 损失函数。MSFR 损失在频域测量多尺度真实图像和去模糊图像之间的 L1 距离,具体公式如式(1.4)所示:

L M S F R = ∑ k = 1 K 1 t k ∣ ∣ F ( S k ^ ) − F ( S k ) ∣ ∣ 1 (1.4) L_{MSFR} = \sum_{k=1}^K \frac{1}{t_k} ||\mathcal{F}(\hat{S_k}) - \mathcal{F}(S_k)||_1 \tag{1.4} LMSFR=k=1Ktk1∣∣F(Sk^)F(Sk)1(1.4)

其中, F \mathcal{F} F 表示快速傅里叶变换(Fast Fourier Transform,FFT),用于将图像信号转换到频域。

  最终的损失函数如式(1.5)所示:

L t o t a l = L c o n t + λ L M S F R (1.5) L_{total} = L_{cont} + \lambda L_{MSFR} \tag{1.5} Ltotal=Lcont+λLMSFR(1.5)

其中 λ 为 0.1。

2.5 模型变体

  为了平衡计算复杂度和性能,作者提出以下三种变体:

  • MIMO-UNet:每个 EB 和 DB 使用 8 个堆叠的残差块。
  • MIMO-UNet+:每个 EB 和 DB 使用 20 个堆叠的残差块。
  • MIMO-UNet++:通过对 MIMO-UNet+ 使用 几何自集成 推理出清晰图片。

  简单来说,几何自集成(Geometric self-ensemble) 就是在测试时,首先将输入的模糊图像进行翻转(flip)和旋转(rotation),从而得到多张图像;然后使用 MIMO-UNet+ 对这些图像进行去模糊,得到多张清晰图像;最后将这些清晰图像进行对应的逆变换操作,再对这些清晰图像取均值从而得到最终的清晰图像。

参考:

[1] Rethinking Coarse-to-Fine Approach in Single Image Deblurring

[2] https://github.com/chosj95/MIMO-UNet

[3] MIMO-UNet笔记

[4] MIMO-UNet | 对单幅图像去模糊中由粗到细方法的再思考

[5] Enhanced Deep Residual Networks for Single Image Super-Resolution

有关图像去模糊:MIMO-UNet 模型详解的更多相关文章

  1. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  2. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  3. ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2

    我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗? 最佳答案 您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话,Rails使用#method_missing作为属性setter,因此您的模块将优先,阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost),那么您的实例方法需要进入一个特殊的模块:classBlah

  4. ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2

    我有一个表单,其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在?solve_problem_pathdo|f|%>... 最佳答案 创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss

  5. ruby-on-rails - form_for 中不在模型中的自定义字段 - 2

    我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢

  6. ruby-on-rails - 如何将验证与模型分开 - 2

    我有一些非常大的模型,我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中?说app/models/validations/user_validations.rb。如果可以,有人可以提供示例吗? 最佳答案 您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:

  7. ruby-on-rails - Rails 模型——非持久类成员或属性? - 2

    对于Rails模型,是否可以/建议让一个类的成员不持久保存到数据库中?我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量,我想将值存储在一个“虚拟”类成员中,该成员只是将值传递回Controller。你能有这样的类(class)成员吗? 最佳答案 将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中,所有实例变量都是私有(private)的,不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs

  8. ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2

    我有一个正在构建的应用程序,我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是,在make_tires内部有一个错误,如果我为Tire尝试它,则没有用于创建或新建的activerecord方法。当我检查轮胎时,它没有这些方法。我该如何补救?错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发,它们都因相同的错误而失败。 最佳答案

  9. ruby-on-rails - Ruby 中的内存模型 - 2

    ruby如何管理内存。例如:如果我们在执行过程中采用C程序,则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序

  10. ruby-on-rails - Rails 3.1 中具有相同形式的多个模型? - 2

    我正在使用Rails3.1并在一个论坛上工作。我有一个名为Topic的模型,每个模型都有许多Post。当用户创建新主题时,他们也应该创建第一个Post。但是,我不确定如何以相同的形式执行此操作。这是我的代码:classTopic:destroyaccepts_nested_attributes_for:postsvalidates_presence_of:titleendclassPost...但这似乎不起作用。有什么想法吗?谢谢! 最佳答案 @Pablo的回答似乎有你需要的一切。但更具体地说...首先改变你View中的这一行对此#

随机推荐