深度学习基础知识（六）：神经网络基础之损失函数

Chou_pijiang

1027人浏览 · 2021-03-14 22:55:08

Chou_pijiang · 2021-03-14 22:55:08 发布

这个专栏主要是想和大家分享一下深度学习的基础知识，主要是以吴恩达老师深度学习课程内容作为基础，并补充了很多其他内容希望让整体内容更加容易理解和系统化。如果想要了解具体专栏里面有什么内容的话，可以看一看我们专栏的目录，在目录里面还说明了小伙伴的分工，这些内容都是所有小伙伴们一起努力完成的，有希望和我们一起学习的的小伙伴也可以加入我们啊。另外我们还将内容以书籍的形式放到了github上，之后还会陆续上传源码实现等其他内容。我们还会分享深度学习-论文阅读专栏、强化学习-基础知识专栏、强化学习-任务阅读专栏，也欢迎大家关注。可能会有很多错漏，希望大家批评指正！还是那句话，不要高估一年的努力，也不要低估十年的积累，与君共勉！

3. 损失函数

3.1 定义

对当前输出y和训练样本的预期值之间的误差的计算，进而用于修正函数的各种参数（如前面线性回归中的w和z）。
损失函数也常被称为误差函数。

损失函数的计算结果越小说明参数越准确。

3.2 常见的损失函数

L1 Loss：

基本形式：计算预测值与目标值的绝对差值
$L=\sum_{i=1}^{n}\left|y_{i}-\hat{y}_{i}\right|$
pytorch实现：
```
torch.nn.L1Loss(reduction='mean')
```
关于参数

reduction: none（不使用约简）、mean（返回loss和的平均值）、sum（返回loss的总和）。默认mean。
适用场景：

L1 Loss能处理数据中的异常值。这或许在那些异常值可能被安全地和有效地忽略的研究中很有用。如果需要考虑任一或全部的异常值，那么最小绝对值偏差是更好的选择（对比L2 Loss）。
优缺点：

优点：鲁棒

缺点：不稳定解、可能多个解

MSE Loss：

基本形式：计算预测值和目标值的差值的平方
$L=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$
pytorch实现：
```
torch.nn.MSELoss(reduction='mean')
```
关于参数

reduction: none（不使用约简）、mean（返回loss和的平均值）、sum（返回loss的总和）。默认mean。
适用场景：

适合作为回归问题的损失函数，比如房价预测，销量预测，流量预测等。
优缺点：

优点：各点都连续光滑，方便求导，具有较为稳定的解

缺点：不是特别稳健，当差值过大时梯度会非常大，可能导致梯度爆炸

Cross Entropy Loss：

基本形式：二分类问题与多分类问题的形式略有区别，但是本质是一样的（二分类是多分类的一个特例）
$\log \hat{y}+(1-y) \log (1-\hat{y})]$

$L=-\sum_{i=1}^N y_i \log \hat{y}$

首先理解二分类时如何工作：标签 $y\in\{0,1\}$ ，因此 $\space\text{or}\space (1-y)=1$ 。当y=1时，该损失函数变为：

当y=0时，该损失函数变为：

因为 $\hat y \in[0,1]$ ，因此 $-\log \hat y \in[0,+\infty]$ ，所以最终结果是 $\hat y$ 离 $y$ 误差越大，损失函数越大。

多分类同样分析。
pytorch实现：
```
torch.nn.CrossEntropyLoss(weight=None,ignore_index=-100, reduction='mean')
```
关于参数

weight: weight(Tensor, optional)，自定义的每个类别的权重。必须是长为C的Tensor。

ignore_index(int, optional)，设置一个目标值, 该目标值会被忽略, 从而不会影响到输入的梯度。

reduction: none（不使用约简）、mean（返回loss和的平均值）、sum（返回loss的总和）。默认mean。
适用场景：

适合分类任务，无论是二分类还是多分类。比如逻辑回归和神经网络。常与softmax激活函数一起使用。
优缺点：

优点：求导简单，导数之与输出值和真实值的差距有关，收敛更快

缺点：在类别过多时计算量过大（比如语言模型中，一个词典包含成千上万个类别）

KL散度Loss：

KL散度又叫相对熵，与交叉熵的关系有 $KLD(p\|q)=CE(p,q)-H(p)$ ，其中 $p$ 是真实分布， $C E$ 是交叉熵，信息熵 $H(p)=p\log(p)$ 。

基本形式：
$L=-\sum y \log (\hat y)-\left(-\sum y \log (y)\right)$
pytorch实现：
```
torch.nn.KLDivLoss(reduction='mean')
```
关于参数

reduction: none（不使用约简）、mean（返回loss和的平均值）、sum（返回loss的总和）。默认mean。
适用场景：

KL 散度可用于衡量不同的连续分布之间的距离，在连续的输出分布的空间上(离散采样)上进行直接回归时很有效。
优缺点：

Huber Loss：

又叫平滑L1损失（Smooth L1 Loss）。

基本形式：
$L=\frac{1}{n} \sum_{i} z_{i}$
其中
$z_{i}=\left\{\begin{array}{ll} 0.5\left(y_{i}-\hat y_{i}\right)^{2}, & \text { if }\left|y_{i}-\hat y_{i}\right|<1 \\ \left|y_{i}-\hat y_{i}\right|-0.5, & \text { otherwise } \end{array}\right.$
如下图，看了就能明白为什么叫平滑L1了：
pytorch实现：
```
torch.nn.SmoothL1Loss(reduction='mean')
```
关于参数

reduction: none（不使用约简）、mean（返回loss和的平均值）、sum（返回loss的总和）。默认mean。
适用场景：

适合处理回归问题。
优缺点：

优点：在零点也可微，并且在误差很小时梯度也会减小，方便收敛

缺点：对于数据中异常值的敏感性要差一些

3.3 成本函数

a.定义：即一个训练集中所有样本的损失函数输出值 $σ$ 的平均值，用于衡量当前模型的参数的准确性。平均值越小，参数越准确。

b.公式：
$J(\omega, b)=\frac{1}{m} \sum_{i=1}^{m} σ\left(\hat{y}^{(i)}, y^{(i)}\right)=-\frac{1}{m} \sum_{i=1}^{n}\left[y^{(j)} \log \hat{y}^{(i)}+\left(1-y\right) \log \left(1-\hat{y}^{(j)}\right) \right]$