深度学习-CNN-LeNet、AlexNet、VGG 和 ResNet
LeNet:开创了 CNN 的基本结构。AlexNet:显著提升了深度学习模型的性能,推动了 CNN 在计算机视觉中的应用。VGG:提供了深层网络设计的范例,强调了深度的优势。ResNet:通过残差连接解决了深层网络训练中的难题,实现了更深的网络设计和更高的准确率。每个模型都有其独特的特点和贡献,对计算机视觉的发展起到了重要作用。
下面是 LeNet、AlexNet、VGG 和 ResNet 的详细介绍,包括它们的架构、特点和对计算机视觉的贡献。
1. LeNet (LeNet-5)
发表时间:1998年
提出者:Yann LeCun 等
主要特点:
-
网络结构:LeNet-5 是 LeNet 系列中的第五个版本,具有 7 层网络结构(不包括输入层和输出层),包括卷积层、池化层和全连接层。结构如下:
- 输入层:32x32 的灰度图像。
- 卷积层 C1:6 个 5x5 的卷积核,生成 28x28 的特征图。
- 池化层 S2:2x2 的最大池化层,将特征图尺寸缩小到 14x14。
- 卷积层 C3:16 个 5x5 的卷积核,生成 10x10 的特征图。
- 池化层 S4:2x2 的最大池化层,将特征图尺寸缩小到 5x5。
- 全连接层 C5:120 个神经元。
- 全连接层 F6:84 个神经元。
- 输出层:10 个神经元(用于分类)。
-
贡献:
- 引入卷积神经网络(CNN):LeNet 是早期成功应用卷积神经网络(CNN)进行手写数字识别的经典模型。
- 应用于手写数字识别:特别是在 MNIST 数据集上取得了显著的效果。
- 奠定了 CNN 的基础:LeNet 的设计理念和网络结构对后来的深度学习模型有着深远的影响。
2. AlexNet
发表时间:2012年
提出者:Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton
主要特点:
-
网络结构:AlexNet 是一个更深、更复杂的卷积神经网络。主要包含 8 层(5 个卷积层和 3 个全连接层)。结构如下:
- 输入层:224x224 的 RGB 图像。
- 卷积层 Conv1:96 个 11x11 的卷积核,步幅 4,生成 55x55 的特征图。
- 池化层 MaxPool1:3x3 的最大池化层,将特征图尺寸缩小到 27x27。
- 卷积层 Conv2:256 个 5x5 的卷积核,生成 27x27 的特征图。
- 池化层 MaxPool2:3x3 的最大池化层,将特征图尺寸缩小到 13x13。
- 卷积层 Conv3:384 个 3x3 的卷积核,生成 13x13 的特征图。
- 卷积层 Conv4:384 个 3x3 的卷积核,生成 13x13 的特征图。
- 卷积层 Conv5:256 个 3x3 的卷积核,生成 13x13 的特征图。
- 池化层 MaxPool3:3x3 的最大池化层,将特征图尺寸缩小到 6x6。
- 全连接层 FC1:4096 个神经元。
- 全连接层 FC2:4096 个神经元。
- 输出层:1000 个神经元(ImageNet 分类任务的输出)。
-
贡献:
- 突破性的性能:在 2012 年的 ImageNet 大规模视觉识别挑战赛中取得了显著的胜利,性能大幅提升。
- 引入 ReLU 激活函数:使用了 ReLU 激活函数和 dropout 技术来减少过拟合。
- 使用数据增强:在训练过程中使用了数据增强技术。
3. VGG (VGGNet)
发表时间:2014年
提出者:Karen Simonyan 和 Andrew Zisserman
主要特点:
-
网络结构:VGGNet 以其深度和简单的卷积层结构著称,主要有 VGG16 和 VGG19 两个版本。结构如下(以 VGG16 为例):
- 输入层:224x224 的 RGB 图像。
- 卷积层 Conv1:64 个 3x3 的卷积核。
- 卷积层 Conv2:64 个 3x3 的卷积核。
- 池化层 MaxPool1:2x2 的最大池化层。
- 卷积层 Conv3:128 个 3x3 的卷积核。
- 卷积层 Conv4:128 个 3x3 的卷积核。
- 池化层 MaxPool2:2x2 的最大池化层。
- 卷积层 Conv5:256 个 3x3 的卷积核。
- 卷积层 Conv6:256 个 3x3 的卷积核。
- 卷积层 Conv7:256 个 3x3 的卷积核。
- 池化层 MaxPool3:2x2 的最大池化层。
- 卷积层 Conv8:512 个 3x3 的卷积核。
- 卷积层 Conv9:512 个 3x3 的卷积核。
- 卷积层 Conv10:512 个 3x3 的卷积核。
- 池化层 MaxPool4:2x2 的最大池化层。
- 全连接层 FC1:4096 个神经元。
- 全连接层 FC2:4096 个神经元。
- 输出层:1000 个神经元(ImageNet 分类任务的输出)。
-
贡献:
- 深层网络结构:VGGNet 的设计简单且具有深度,显著提高了模型的表现。
- 深层卷积:使用了多个小卷积核而非大卷积核来减少计算复杂性并提高精度。
4. ResNet (Residual Network)
发表时间:2015年
提出者:Kaiming He 等
主要特点:
-
网络结构:ResNet 通过引入残差块(Residual Block),允许网络学习残差(即输入和输出之间的差异)。结构如下(以 ResNet-50 为例):
- 输入层:224x224 的 RGB 图像。
- 卷积层 Conv1:64 个 7x7 的卷积核,步幅 2。
- 池化层 MaxPool1:3x3 的最大池化层。
- 残差块:包含多个残差块,每个块有两个或三个卷积层。
- 第一阶段:3 个残差块。
- 第二阶段:4 个残差块。
- 第三阶段:6 个残差块。
- 第四阶段:3 个残差块。
- 全连接层:1000 个神经元(ImageNet 分类任务的输出)。
-
贡献:
- 残差连接:通过引入残差连接,有效解决了深层网络中的梯度消失问题,允许网络变得更深。
- 深层网络训练:使得非常深的网络(如 ResNet-152)能够有效训练并实现更高的准确率。
- 网络设计:提供了一种新的网络设计思路,使得深层网络训练更加稳定。
总结
这些模型代表了卷积神经网络发展的不同阶段:
- LeNet:开创了 CNN 的基本结构。
- AlexNet:显著提升了深度学习模型的性能,推动了 CNN 在计算机视觉中的应用。
- VGG:提供了深层网络设计的范例,强调了深度的优势。
- ResNet:通过残差连接解决了深层网络训练中的难题,实现了更深的网络设计和更高的准确率。
每个模型都有其独特的特点和贡献,对计算机视觉的发展起到了重要作用。
更多推荐




所有评论(0)