Hybrid-PSC：基于对比学习的混合网络，解决长尾图片分类 | CVPR 2021

VincentTeddy 2023-03-28 原文

论文提出新颖的混合网络用于解决长尾图片分类问题，该网络由用于图像特征学习的对比学习分支和用于分类器学习的交叉熵分支组成，在训练过程逐步将训练权重调整至分类器学习，达到更好的特征得出更好的分类器的思想。另外，为了节省内存消耗，论文提出原型有监督对比学习。从实验结果来看，论文提出的方法效果还是很不错的，值得一看

来源：晓飞的算法工程笔记公众号

论文: Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification

[图片上传失败...(image-c3ac3-1654002352477)]

论文地址：https://arxiv.org/abs/2103.14267
论文代码：https://www.kaihan.org/HybridLT/

Introduction

在实际场景中，图片类别通常都会呈现长尾分布，不常见的类别通常由于数据不足而无法被充分学习，给分类器的学习带来巨大的挑战。当前大多研究都通过减轻尾部类别的数据短缺来应对数据不平衡的问题，防止模型被头部类别控制，如数据重采样和数据增强等。
最近，有新的研究提出将长尾数据分类问题分解为特征学习和分类器学习两个阶段，认为这两个阶段适用不同的数据采样策略进行学习，比如随机采样更适合特征学习，而类别平衡采样更适合分类器学习。

[图片上传失败...(image-93dbde-1654002352478)]

但有一点需要注意的是，上述两类研究都没有考虑到，在数据不平衡场景下，交叉熵损失是否仍为特征学习的理想损失函数。交叉熵损失学习到的特征分布可能会高度倾斜，如上图所示，导致分类器存在偏向性，会影响长尾分类。
为此，论文研究了高效的对比学习策略，将其适配到不平衡数据中学习特征表达，提高长尾图片分类场景的性能。论文采用了新颖的混合网络结构，由用于特征表达学习的对比损失和用于分类器学习的交叉熵损失组成。两个损失联合训练，在训练过程中逐渐调整两个损失的权重，从特征学习逐步转移为分类器学习，遵循更好的特征产生更好的分类器的思想。

[图片上传失败...(image-1b1aa5-1654002352478)]

论文一开始采用从无监督对比(UC)中延伸出来的有监督对比(SC)损失用于特征学习，该损失使用batch内的样本进行相互对比，通过区分负样本来优化正样本间的一致性，如图左所示。如果想要保证优化效果，需要确保对比的正样本够多以及负样本覆盖足够多的类别，通常需要使用较大的batch，导致内存消耗过多。为了解决这个问题，论文提出了原型有监督对比(PSC)学习策略，从batch内的样本间对比改为batch内的样本与额外维护的原型进行对比，如图右所示。在保持原本有监督对比的特性的情况下，原型有监督对比避免了过多的内存消耗，还能使数据采样更灵活和高效。
论文的主要贡献如下：

提出用于长尾数据分类的混合网络结构，由用于特征表达学习的对比损失和用于分类器学习的交叉熵损失组成。在训练过程中逐渐调整两个损失的权重，从特征学习逐步转移为分类器学习，遵循更好的特征产生更好的分类器的思想。
研究高效的有监督对比学习策略用于更优的特征学习，提高长尾分类性能。另外，论文提出原型有监督对比来解决标准有监督对比的内存问题。
验证在长尾分类场景中，有监督对比学习能更好地替代交叉熵损失进行特征学习。得益于学习到更好的特征，论文提出的混合网络能够极大地超越基于交叉熵的网络。

Contrastive learning

Unsupervised contrastive

[图片上传失败...(image-8ceb50-1654002352478)]

无监督对比学习在无标签的场景下，通过同源图片与非同源图片之间的特征对比来进行特征表达的学习。比如先随机选取n张原图片，经过数据增强后变成2n张图片组成batch，将同源副本相互认为正样本、非同源副本认为负样本进行距离学习。

Supervised contrastive

[图片上传失败...(image-b16cba-1654002352478)]

有监督对比学习主在有标签的场景下，通过同类别图片与非同类别图片之间的特征对比来进行特征表达的学习。有监督对比学习也是需要进行数据增强生成同源副本的，所以正样本包含同源副本和同类别副本。比如选取n张原图片，经过数据增强后变成2n张图片组成batch，将同类图片相互认为正样本、非同类图片认为负样本进行距离学习。这里的n张图片选取不能随机选，为达到有监督的目的，同类别图片要大于1张。

Main Approach

A Hybrid Framework for Long-tailed Classification

[图片上传失败...(image-1e3ba2-1654002352478)]

论文提出的用于长尾图像分类的混合框架如上图所示，包含两个分支：

用于图像特征学习的对比学习分支，构造同类内聚、异类分离的特征空间。
用于分类器学习的交叉熵分支，基于对比学习分支得到的显著特征学习类别偏向较少的分类器。

为了达到用更好的特征帮助分类器进行学习，从而得到更通用的分类器的目的。论文参考了BBN的双分支联合训练方法，在训练阶段逐步调整这两个分支的权重。在训练初期以特征学习作为主导，随着训练的进行，分类器学习逐级主导训练。
主干网络在分支间共享，共同帮助主干网络学习每个图片的特征 $r\in\mathcal{R}^{D_E}$ 。两个分支分别进行不同的操作：

对比学习分支先通过MLP层 $f_e(\cdot)$ 将图片特征映射成向量表达 $z\in\mathcal{R}^{D_S}$ ，适配后续对比损失函数的计算。另外，这样的特征向量化转换也有助于提升前一层的特征质量。随后，对特征进行 $\mathcal{l}_2$ 归一化，使其能够用于距离计算。最后，使用输出的归一化特征计算有监督对比损失 $\mathcal{L}_{SCL}$ 。
分类器学习分支先通过单个线性层从图像特征预测类别结果 $s\in\mathcal{R}^{D_C}$ ，随后直接计算交叉熵损失 $\mathcal{L}_{CE}$ 。

需要注意的是，为了适应其损失函数的特性，两个分支的数据采样方式是不同的。特征学习分支需要附带样本的同类正样本 $\{x^{+}_i\}=\{x_j|y_i=y_j,i\ne j\}$ 和异类负样本 $\{x^{-}_i\}=\{x_j|y_i=y_j,i\ne j\}$ ，组成单个batch输入 $\mathcal{B}_{SC}=\{x_i, \{x^{+}_i\}, \{x^{-}_i\}\}$ ，而分类器学习分支则直接输入图片和标签 $\mathcal{B}_{CE}=\{\{x_i, y_i\}\}$ 即可。
混合网络的最终损失函数为：

[图片上传失败...(image-a80300-1654002352478)]

$\alpha$ 是权重因子，与周期数成反相关。

Supervised contrastive loss and its memory issue

有监督对比损失(supervised contrastive loss, SC loss)是对无监督对比损失(unsupervised contrastive loss, UC loss)的扩展，区别在于单batch内的正负样本构成。假设目标图片的正负样本的向量特征为 $\{z^{+}_i\}$ 和 $\{z^{-}_i\}$ ，对于大小为N的minibatch，SC loss的计算为：

[图片上传失败...(image-5e37df-1654002352478)]

[图片上传失败...(image-8c10c2-1654002352478)]

相对于UC loss，SC loss可采用任意数量的正样本。由于对比损失是通过区分负样本来优化正样本间的一致性，所以负样本数量十分重要的，而SC损失加入同类图片作为正样本，为保证负样本数量而不得不成倍地增加batch大小，导致内存消耗成倍地增加，导致内存消耗的成倍地增加，限制了SC loss的使用场景。
一个解决内存消耗的做法就是缩小负样本数量，但这样在类别数多的场景下会有问题。负样本数小意味着只能采样到少量负样本类别，肯定会影响学到的特征质量。

Prototypical supervised contrastive loss

为了同时兼顾内存消耗和特征质量，论文提出了原型有监督对比损失(prototypical supervised contrastive loss, PSC loss)，为每个类别学习一个原型，强迫每个图片的数据增强副本尽量靠近其所属类别的原型以及远离其他类别的原型。使用原型有两个好处：1）允许更灵活的数据采样方式，不再需要显示地控制正负样本，可使用随机采样或类别平衡采样。2）数据采样更高效，假设有 $\mathcal{C}$ 类别，则每次采样保证都有 $\mathcal{C}-1$ 个负样本，这对于类别多的数据集特别重要。
PSC loss的计算如下：

[图片上传失败...(image-2e4929-1654002352478)]

$p_{ij}$ 是类别的原型特征，归一化为 $\mathcal{R}^{D_S}$ 下的单位超球面，即满足L2归一化。这里没有提到原型是如何初始化和学习的，需要等源码放出来再看看。
PSC loss也可以延伸为每个类别多个原型，主要为了迎合单类别可能存在有多种数据分布的情况。多原型有监督对比损失(multiple prototype supervised contrastive loss, MPSC loss)的计算为：

[图片上传失败...(image-b6d62e-1654002352478)]

为每个类别的原型数，为类别j的第个原型， $w_{i,k}(w_{i,k}\ge 0,{\sum}^M_{k=1})w_{i,k}=1$ 为与第个原型之间的关系值，用于更细粒度地控制每个样本，这将会在未来的工作中进行进一步地验证。

Experiment

Datasets

论文主要在三个长尾图片分类数据集进行实验：

Long-tailed CIFAR-10和CIFAR-100：原版的CIFAR数据集是平衡的，通过减少每个类别的图片数来生成长尾版本，注意验证集不变。用一个不平衡比例 $\beta=N_{max}/N_{min}$ 来表示生成的长尾数据集的不平衡程度。
iNaturalist 2018：iNaturalist 2018是一个大型的生物品种数据集，包含8142个品种、437513张训练图片以及24424张验证图片。

Implementation details

对于长尾CIFAR数据集和iNaturalist数据集，论文使用了不同的实验配置：

Implementation details for long-tailed CIFAR：混合网络使用ResNet-32作为主干，两个分支共享的数据增强方法有： $32\times 32$ 的随机裁剪、水平翻转以及概率为0.2的随机灰度。另外，PSC loss也跟随SC loss使用额外的数据增强方法。在实验中，论文简单地使用有颜色扰动和无颜色扰动的图片作为数据增强副本对，batch size为512，使用momentum=0.9、weight decay= $1\times 10^{-4}$ 的SGD优化器。网络共训练200个周期，学习率初始为0.5并在第120周期和160周期下降10倍。权重因子 $\alpha=1-(T/T_{max})^2$ 与周期数成抛物线衰减。对于SC loss，公式3的 $\tau$ 固定为0.1，而对于PSC loss，在CIFAR-10和CIFAR-100上分别设置为1和0.1。
Implementation details for iNaturalist 2018：混合网络使用ResNet-50作为主干网络，数据增强跟长尾CIFAR一样，只是随机裁剪的图片大小为 $224\times 224$ ，batch size为100。网络共训练100轮，使用momentum=0.9、weight decay= $1\times 10^{-4}$ 的SGD优化器，学习率初始为0.05并在第60周期和第80周期下降10倍。考虑这个数据集的类别多，学习器训练较难，权重因子 $\alpha=1-T/T_{max}$ 设置为线性下降，公式3的 $\tau$ 固定为0.1。对于SC loss，正样本数固定为2。

Result

[图片上传失败...(image-2ee76b-1654002352478)]

长尾CIFAR上的结果对比。

[图片上传失败...(image-3127c5-1654002352478)]

iNaturalist 2018上的结果对比。

Conclusion

论文提出新颖的混合网络用于解决长尾图片分类问题，该网络由用于图像特征学习的对比学习分支和用于分类器学习的交叉熵分支组成，在训练过程逐步将训练权重从特征学习调整至分类器学习，遵循更好的特征可得出更好的分类器的思想。另外，为了节省内存消耗，论文提出原型有监督对比学习。从实验结果来看，论文提出的方法效果还是很不错的，值得一看。

参考内容

Supervised Contrastive Learning
-Prannay Khosla

如果本文对你有帮助，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

work-life balance.

有关Hybrid-PSC：基于对比学习的混合网络，解决长尾图片分类 | CVPR 2021的更多相关文章

ruby-on-rails - Ruby on Rails - 为文本区域和图片生成列 - 2
我是Rails的新手，所以请原谅简单的问题。我正在为一家公司创建一个网站。那家公司想在网站上展示它的客户。我想让客户自己管理这个。我正在为“客户”生成一个表格，我想要的三列是:公司名称、公司描述和Logo。对于名称，我使用的是name:string但不确定如何在脚本/生成脚手架终端命令中最好地创建描述列(因为我打算将其设置为文本区域)和图片。我怀疑描述(我想成为一个文本区域)应该仍然是描述:字符串，然后以实际形式进行调整。不确定如何处理图片字段。那么……说来话长:我在脚手架命令中输入什么来生成描述和图片列？最佳答案对于“文本”数
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
kvm虚拟机安装centos7基于ubuntu20.04系统 - 2
需求：要创建虚拟机，就需要给他提供一个虚拟的磁盘，我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式：qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令，基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机，另外在创建虚拟机之前，提前打开vnc客户端，在创建虚拟机的时候，通过vnc
ruby-on-rails - (Ruby,Rails) 基于角色的身份验证和用户管理...？ - 2
我正在寻找用于Rails的优质管理插件。似乎大多数现有的插件/gem(例如“restful_authentication”、“acts_as_authenticated”)都围绕着self注册等展开。但是，我正在寻找一种功能齐全的基于管理/管理角色的解决方案——但不是简单地附加到另一个非基于角色的解决方案。如果我找不到，我想我会自己动手......只是不想重新发明轮子。最佳答案 RyanBates最近做了两个关于授权的railscast(注意身份验证和授权之间的区别；身份验证检查用户是否如她所说的那样，授权检查用户是否有权访问资源
ruby-on-rails - Rails 3，在RAILS_ROOT上方显示来自本地文件系统的jpg图片 - 2
我正在尝试找出一种方法来显示来自不在RAILS_ROOT下(在RedHat或Ubuntu环境中)的已安装文件系统的图像。我不想使用符号链接(symboliclink)，因为这个应用程序实际上是通过Tomcat部署的，而当我关闭Tomcat时，Tomcat会尝试跟随符号链接(symboliclink)并删除挂载中的所有图像。由于这些文件的数量和大小，将图像放在public/images下也不是一种选择。我查看了send_file，但它只会显示一张图片。我需要在一个格式良好的页面中显示6个请求的图像。由于膨胀，我宁愿不使用Base64编码，但我不知道如何将图像数据与呈现的页面一起传递下去。
ruby - 在 Rakefile 中动态生成 Rake 测试任务(基于现有的测试文件) - 2
我正在根据Rakefile中的现有测试文件动态生成测试任务。假设您有各种以模式命名的单元测试文件test_.rb.所以我正在做的是创建一个以“测试”命名空间内的文件名命名的任务。使用下面的代码，我可以用raketest:调用所有测试require'rake/testtask'task:default=>'test:all'namespace:testdodesc"Runalltests"Rake::TestTask.new(:all)do|t|t.test_files=FileList['test_*.rb']endFileList['test_*.rb'].eachdo|task|n
ruby - 如何使用 Ruby 基于字母数字字符串生成颜色？ - 2
我想要像“嘿那里”这样的东西变成，例如，#316583。我希望将任意长度的字符串“归结”为十六进制颜色。我不知道从哪里开始。我在想，每个字符串的MD5散列都是不同的-但如何将该散列转换为十六进制颜色数字？最佳答案你可以只取几位前几位:require'digest/md5'color=Digest::MD5.hexdigest('Mytext')[0..5] 关于ruby-如何使用Ruby基于字母数字字符串生成颜色？，我们在StackOverflow上找到一个类似的问题：
【自动驾驶环境感知项目】——基于Paddle3D的点云障碍物检测 - 2
文章目录1.自动驾驶实战：基于Paddle3D的点云障碍物检测1.1环境信息1.2准备点云数据1.3安装Paddle3D1.4模型训练1.5模型评估1.6模型导出1.7模型部署效果附录show_lidar_pred_on_image.py1.自动驾驶实战：基于Paddle3D的点云障碍物检测项目地址——自动驾驶实战：基于Paddle3D的点云障碍物检测课程地址——自动驾驶感知系统揭秘1.1环境信息硬件信息CPU:2核AI加速卡:v100总显存:16GB总内存:16GB总硬盘:100GB环境配置Python:3.7.4框架信息框架版本:PaddlePaddle2.4.0（项目默认框架版本为2.3
最新版人脸识别小程序图片识别生成二维码签到地图上选点进行位置签到计算签到距离课程会议活动打卡日常考勤上课签到打卡考勤口令签到 - 2
技术选型1，前端小程序原生MINA框架cssJavaScriptWxml2，管理后台云开发Cms内容管理系统web网页3，数据后台小程序云开发云函数云开发数据库（基于MongoDB）云存储4，人脸识别算法基于百度智能云实现人脸识别一，用户端效果图预览老规矩我们先来看效果图，如果效果图符合你的需求，就继续往下看，如果不符合你的需求，可以跳过。1-1，登录注册页可以看到登录页有注册入口，注册页如下我们的注册，需要管理员审核，审核通过后才可以正常登录使用小程序1-2，个人中心页登录成功以后，我们会进入个人中心页我们在个人中心页可以注册人脸，因为我们做人脸识别签到，需要先注册人脸才可以进行人脸比对，进