交叉熵损失函数求导与Softmax函数求导

前情提要
交叉熵损失函数
对Softmax函数求导
对交叉熵损失函数求导

前情提要

在做单分类的时候，一般模型的最后一层是线性层Linear做分类器，输出在每个标签上的logits。损失函数为交叉熵损失函数，会对logits进行Softmax之后累计损失。

为了理论基础和严谨，复习下求导运算。

交叉熵损失函数

交叉熵函数在pytorch上的详细原理与实验验证请见博客：【pytorch】交叉熵损失函数 F.cross_entropy()。

交叉熵损失函数公式如公式（1）所示：

$i\begin{align}L = -\sum_{i}^N label_i \times \ln a_i\end{align}$

其中， $label_i$ 是真实标签，也就是标签的one-hot编码，是一维常量。 $a_i$ 是经过了Softmax的概率logits，是一维向量。累计计算 $N$ 个样本的值，即可得到最终结果。

$a_i$ 计算公式如公式（2）公式（3）：

$zk\begin{align} a_i &= Softmax(z_i) \\ &= \frac {e^{z_i}} {\sum_{k}^M e^{z_k}} \end{align}$

其中， $z_i$ 是全连接层的输出logits中的第 $i$ 个，是一维向量。

对Softmax函数求导

因为交叉熵损失函数中包含了Softmax函数，所以先求导Softmax。

对于公式（3），输入 $z_i$ 是全连接层的输出logits中的第 $i$ 个，所以我们对 $z_i$ 求导。但是因为Softmax公式的的分母包含了所有元素，所以为了方便计算，我们搞一个新变量，对 $z_j$ 求导。

观察公式（3）的形状可知，Softmax函数是形如 $\frac{g(x)}{h(x)}$ 的函数，它的求导公式如公式（4）所示：

$\begin{align} \frac{\partial a_i}{\partial z_j} = \frac{g'(x)h(x) – h'(x)g(x)}{h^2(x)} \end{align}$

所以要得到Softmax的导数只需要知道 $e^{z_i}$ 与 $\sum e^{z_k}$ 的导数即可。

·当 $i = j$ 时， $e^{z_i}$ 对 $z_j$ 求偏导结果为 $e^{z_i}$ 或者 $e^{z_j}$ 都可以，因为 $i = j$ ；
·当 $\not= j$ 时， $e^{z_i}$ 对 $z_j$ 求偏导结果为0，因为此刻 $z_i$ 和 $z_j$ 是两个不同的变量，所以求导为0；
· $\sum e^{z_k}$ 对 $z_j$ 求偏导结果为 $e^{z_k}$ ，因为求和项里面总有一个 $e^{z_k}$ 。

于是当 $i = j$ 时，Softmax公式求导过程如公式（5）：

$\begin{split} \frac{\partial a_i}{\partial z_j} &= \frac{\partial \frac{e^{z_i}}{\sum e^{z_k}}}{\partial z_j} \\ &= \frac{e^{z_i} \cdot \sum e^{z_k} – e^{z_i} \cdot e^{z_j} }{(\sum e^{z_k})^2} \\ &= \frac{e^{z_i}}{\sum e^{z_k}} – \frac{e^{z_i}}{\sum e^{z_k}} \cdot \frac{e^{z_j}}{\sum e^{z_k}} \\ &=a_i(1 – a_j) \end{split} \tag{5}$

当 $\not= j$ 时，Softmax公式求导过程如公式（6）：

$\begin{split} \frac{\partial a_i}{\partial z_j} &= \frac{\partial \frac{e^{z_i}}{\sum e^{z_k}}}{\partial z_j} \\ &= \frac{0\cdot \sum e^{z_k} – e^{z_i} \cdot e^{z_j} }{(\sum e^{z_k})^2} \\ &= – \frac{e^{z_i}}{\sum e^{z_k}} \cdot \frac{e^{z_j}}{\sum e^{z_k}} \\ &= -a_ia_j \end{split} \tag{6}$

对交叉熵损失函数求导

对交叉熵损失函数求导可以一直顺利的求到分类讨论前，如公式（7）所示。其中 $label_i$ 是常数，所以提出来了。

$\begin{split} \frac{\partial L}{\partial z_j} &= \frac{\partial L}{\partial a_i}\frac{\partial a_i}{\partial z_j} \\ &= -label_i \frac{\partial (\sum \ln a_i)}{\partial a_i} \frac{\partial a_i}{\partial z_j} \\ &= -label_i (\sum\frac{1}{a_i}) \frac{\partial a_i}{\partial z_j} \\ \end{split} \tag{7}$