深度学习(自监督:SimCLR)——A Simple Framework for Contrastive Learning of Visual Representations

文章目录前言SimCLR简述实验数据增强对性能的影响Unsupervised contrastive learning benefits (more) from bigger modelsA nonlinear projection head improves the representation quality of the layer before itContrastive learning

菜到怀疑人生

2756人浏览 · 2021-06-14 18:30:19

菜到怀疑人生 · 2021-06-14 18:30:19 发布

前言

该文章是Hinton和Google发表在2020 ICML上的一篇自监督文章。

代码地址： https://github.com/google-research/simclr

其实看文章的时候就闻到味了，一定是Google家的作品，实验数据非常详细，替我们探索了对比学习所具有的一些特性。

本文将对SimCLR做一个简述，并且简单记录其中比较有意思的实验。

SimCLR简述

在这里插入图片描述
上图为SimCLR的模型结构，具体流程为

对一个输入图像 $x$ 施加两种不同的数据增强，得到两张图片 $\tilde{x_i}$ 、 $\tilde{x_j}$
将两张图片输入到一个CNN网络 $f (x)$ 提取特征，得到 $h_i$ 、 $h_j$ 两个feature vector
两个feature vector经过一个MLP网络 $g (x)$ 处理，得到 $z_i$ 、 $z_j$

假设batch size大小为 $N$ ，经过数据增强，可以得到 $2 N$ 张图像，SimCLR在对比学习时，需要正负例。

对图片 $x$ 施加两种不同的数据增强，得到 $\tilde{x_i}$ 、 $\tilde{x_j}$ ，经过CNN、MLP处理后得到 $z_i$ 、 $z_j$ ， $z_i$ 与 $z_j$ 构成一个正例对， $z_i$ 与batch size中其他图像（包括数据增强后的图像）的feature vector组成负例对，因此一张图片将存在1个正例对， $2 N - 2$ 个负例对。一张图片的损失函数为
在这里插入图片描述
$sim(z_i,z_j)$ 表示计算两个向量的余弦相似度， $T$ 为超参数， $2 N$ 张图像的损失函数之和求平均，得到最终的损失函数，其实就是在进行 $2 N - 1$ 的分类

算法伪代码
在这里插入图片描述

实验

实验部分有很多有价值的部分，本篇论文探究了一些trick对SimCLR的影响，并给出了一些结论

除非特别提及，本节的所有实验结果都是使用SimCLR在ImageNet1000上预训练一个ResNet-50，接着freeze特征提取器，接入一个线性分类器进行训练，训练完毕后模型在ImageNet1000测试集上的准确率。

数据增强对性能的影响

在这里插入图片描述
上图的含义请见英文，主要可以得出三个结论

单独使用一种数据增强，对比学习的效果会很差
random cropping与random color distortion进行组合效果最好
数据增强对对比学习的影响非常明显，这不是一个好的性质，很多时候我们需要进行穷举试错

Unsupervised contrastive learning benefits (more) from bigger models

在这里插入图片描述
上图给出了图像加宽和加深对模型性能的影响，R18(2x)表示ResNet18加宽两倍，其他符号以此类推。

观察上图，个人有以下结论

增大模型容量时，首先考虑加深，ResNet152的性能与ResNet18高不少，并且参数量没有上升特别多，加深网络是实践时的首选
深度足够，再来考虑宽度，此时参数量会暴涨，可能训练速度会慢不少，加宽网络是实践时的次优选

A nonlinear projection head improves the representation quality of the layer before it

在这里插入图片描述
上图探究了 $z$ 的维度对模型线性分类性能的影响， $z$ 的含义见SimCLR简述一节，可见 $z$ 的维度对模型性能影响不大，并且非线性MLP性能要优于线性MLP，这点在MoCo v2中也得到了验证。

SimCLR中可以用于线性分类的特征有两个，一是特征提取器的输出 $h$ ，二是MLP层的输出 $g (h)$ （两者含义见SimCLR简述一节），在线性分类中，使用 $h$ 的性能要优于 $g (h)$ （大于10%），可能是因为MLP过滤掉了一些有用的信息

Contrastive learning benefits (more) from larger batch sizes and longer training

在这里插入图片描述
上图可以得出的结论有两个，对于使用负例的对比学习算法而言

batch size越大，效果越好，并且提升显著，但是对于只使用正例的对比学习算法而言（例如BYOL、simsiam），batch size大小对性能影响没有如此显著
训练epoch越长，效果越好，这点对于只使用正例的对比学习算法而言也一样

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制

EazyDevelop社区

从零开始搭建个人RAG知识库：RAGFlow+DeepSeek保姆级教程！

EazyDevelop社区

taosync：适用于AList v3的自动化同步工具

在现代生活中，数据同步和备份已成为维护数据安全的关键环节。taosync是一款专为AList v3设计的自动化同步工具，能够帮助用户轻松地同步和备份他们的数据到多个网盘或FTP存储服务。这款工具的开发初衷是为了保存孩子的成长照片，其名称“taoSync”也因此而来。taosync以开源免费的形式提供，支持几乎所有的常用平台，并且提供了完善的日志记录、任务管理以及安全的密码加密功能。## 项目技