【机器学习中的矩阵求导】（三）矩阵向量求导（微分法）

学习总结（1）用微分法，要熟练矩阵微分和迹函数的性质。（2）有一些场景，求导的自变量和因变量直接有复杂的多层链式求导的关系，此时微分法使用起来也有些麻烦。如果我们可以利用一些常用的简单求导结果，再使用链式求导法则，则会非常的方便。（3）本task是求解标量对向量的求导，以及标量对矩阵的求导。注意此处统一规定：使用分母布局。文章目录学习总结一、矩阵微分二、矩阵微分的性质三、使用微分法求解矩阵向量求导

山顶夕景

2008人浏览 · 2021-11-29 16:01:19

山顶夕景 · 2021-11-29 16:01:19 发布

学习总结

（1）用微分法，要熟练矩阵微分和迹函数的性质。由于微分法使用了迹函数的技巧，那么迹函数对向量矩阵求导这一大类问题，使用微分法是最简单直接的。
（2）有一些场景，求导的自变量和因变量直接有复杂的多层链式求导的关系，此时微分法使用起来也有些麻烦。如果我们可以利用一些常用的简单求导结果，再使用链式求导法则（下个task），则会非常的方便。
（3）本task是求解标量对向量的求导，以及标量对矩阵的求导。注意此处统一规定：使用分母布局（维度和分母一致）。

机器学习算法中一般会使用一种叫混合布局的思路，即如果是向量或者矩阵对标量求导，则使用分子布局为准，如果是标量对向量或者矩阵求导，则以分母布局为准。对于向量对对向量求导，有些分歧，后面统一以分子布局的雅克比矩阵为主。

一、矩阵微分

我们熟悉的标量的微分：
$f=f^{\prime}(x) d x$ 如果是多变量情况：
$f=\sum_{i=1}^{n} \frac{\partial f}{\partial x_{i}} d x_{i}=\left(\frac{\partial f}{\partial \mathbf{x}}\right)^{T} d \mathbf{x}$
从上面可以发现：标量对向量的求导，和向量的微分，之间存在一个转置的一项。
推广到矩阵微分：
$f=\sum_{i=1}^{m} \sum_{j=1}^{n} \frac{\partial f}{\partial X_{i j}} d X_{i j}=\operatorname{tr}\left(\left(\frac{\partial f}{\partial \mathbf{X}}\right)^{T} d \mathbf{X}\right)$
注意：

上面矩阵微分的第二步，用了【迹函数等于主对角线的和】性质： $\operatorname{tr}\left(A^{T} B\right)=\sum_{i, j} A_{i j} B_{i j}$
矩阵微分和它的导数也有一个转置的关系，不过在外面套了一个迹函数而已。由于标量的迹函数就是它本身，那么矩阵微分和向量微分可以统一表示，即： $f=\operatorname{tr}\left(\left(\frac{\partial f}{\partial \mathbf{X}}\right)^{T} d \mathbf{X}\right) \quad d f=\operatorname{tr}\left(\left(\frac{\partial f}{\partial \mathbf{x}}\right)^{T} d \mathbf{x}\right)$

二、矩阵微分的性质

微分加法： $d (X + Y) = d X + d Y, d (X - Y) = d X - d Y$
微分乘法： $d (X Y) = (d X) Y + X (d Y)$
微分转置： $d\left(X^{T}\right)=(d X)^{T}$
微分的迹： $\operatorname{tr}(X)=\operatorname{tr}(d X)$
微分哈达玛积： $\odot Y)=X \odot d Y+d X \odot Y$
逐元素求导： $\sigma(X)=\sigma^{\prime}(X) \odot d X$
逆矩阵微分： $d X^{-1}=-X^{-1} (d X) X^{-1}$
行列式微分： $\operatorname{tr}\left(X^{-1} d X\right)$

三、使用微分法求解矩阵向量求导

3.1 迹函数的技巧

标量的迹等于自己： $\operatorname{tr}(x)=x$ ；转置则迹不变
交换律： $\operatorname{tr}(A B)=\operatorname{tr}(B A)$ ，需要满足 $A$ 、 $B^T$ 同维度
加减法： $\operatorname{tr}(X+Y)=\operatorname{tr}(X)+\operatorname{tr}(Y), \operatorname{tr}(X-Y)=\operatorname{tr}(X)-\operatorname{tr}(Y)$
矩阵乘法和迹交换： $\operatorname{tr}\left((A \odot B)^{T} C\right)=\operatorname{tr}\left(A^{T}(B \odot C)\right)$ ，注意A，B，C的维度要相同

3.2 栗子1

看上一次定义法的求导问题：
$y=\mathbf{a}^{T} \mathbf{X} \mathbf{b}, \frac{\partial y}{\partial \mathbf{X}}$
（1）用微分乘法对 $f$ 求微分，得到： $\mathbf{a}^{T} \mathbf{X} \mathbf{b}+\mathbf{a}^{T} d \mathbf{X} \mathbf{b}+\mathbf{a}^{T} \mathbf{X} d \mathbf{b}=\mathbf{a}^{T} d \mathbf{X} \mathbf{b}$
（2）两边套上迹函数，其中第一步到第二步用到了3.1迹函数的性质1，第三步到第四步用到了性质2（交换律）：
$y=\operatorname{tr}(d y)=\operatorname{tr}\left(\mathbf{a}^{T} d \mathbf{X} \mathbf{b}\right)=\operatorname{tr}\left(\mathbf{b} \mathbf{a}^{T} d \mathbf{X}\right)$
（3）根据我们矩阵导数和微分的定义，迹函数里面在 $d X$ 左边的部分 $\mathbf{b}\mathbf{a}^T$ ，加上一个转置即为我们要求的导数，即：
$\frac{\partial f}{\partial \mathbf{X}}=\left(\mathbf{b a}^{T}\right)^{T}=a b^{T}$

小结：以上就是微分法的基本流程，先求微分再做迹函数变换，最后得到求导结果。比起定义法，我们现在不需要去对矩阵中的单个标量进行求导了。

3.3 栗子2

$y=\mathbf{a}^{T} \exp (\mathbf{X} \mathbf{b}), \frac{\partial y}{\partial \mathbf{X}}$
$y=\operatorname{tr}(d y) \\ =\operatorname{tr}\left(\mathbf{a}^{T} \operatorname{dexp}(\mathbf{X b})\right) \\ =\operatorname{tr}\left(\mathbf{a}^{T}(\exp (\mathbf{X b}) \odot d(\mathbf{X} \mathbf{b}))\right) \\ =\operatorname{tr}\left((\mathbf{a} \odot \exp (\mathbf{X} \mathbf{b}))^{T} d \mathbf{X} \mathbf{b}\right) \\ =\operatorname{tr}\left(\mathbf{b}(\mathbf{a} \odot \exp (\mathbf{X} \mathbf{b}))^{T} d \mathbf{X}\right)$
第三到第四步，用了迹函数的矩阵乘法和迹交换（性质4）。求导结果为：
$\frac{\partial y}{\partial \mathbf{X}}=(\mathbf{a} \odot \exp (\mathbf{X} \mathbf{b})) b^{T}$

四、迹函数对向量矩阵求导

常见的迹函数的求导过程：
（1）直接根据矩阵微分的定义：
$\frac{\partial t r(A B)}{\partial A}=B^{T}, \frac{\partial t r(A B)}{\partial B}=A^{T}$
（2）
$\frac{\partial t r\left(W^{T} A W\right)}{\partial W}$
$\begin{gathered} d\left(\operatorname{tr}\left(W^{T} A W\right)\right)=\operatorname{tr}\left(d W^{T} A W+W^{T} A d W\right) \\ =\operatorname{tr}\left(d W^{T} A W\right)+\operatorname{tr}\left(W^{T} A d W\right) \\ =\operatorname{tr}\left((d W)^{T} A W\right)+\operatorname{tr}\left(W^{T} A d W\right) \\ =\operatorname{tr}\left(W^{T} A^{T} d W\right) \\ +\operatorname{tr}\left(W^{T} A d W\right)=\operatorname{tr}\left(W^{T}\left(A+A^{T}\right) d W\right) \end{gathered}$
得到：
$\frac{\partial \operatorname{tr}\left(W^{T} A W\right)}{\partial W}=\left(A+A^{T}\right) W$
（3）复杂的迹函数求导：
$\frac{\partial t r\left(B^{T} X^{T} C X B\right)}{\partial X}$
$\begin{gathered} d\left(\operatorname{tr}\left(B^{T} X^{T} C X B\right)\right) \\ =\operatorname{tr}\left(B^{T} d X^{T} C X B\right)+\operatorname{tr}\left(B^{T} X^{T} C d X B\right) \\ =\operatorname{tr}\left((d X)^{T} C X B B^{T}\right)+\operatorname{tr}\left(B B^{T} X^{T} C d X\right) \\ =\operatorname{tr}\left(B B^{T} X^{T} C^{T} d X\right) +\operatorname{tr}\left(B B^{T} X^{T} C d X\right) \\ =\operatorname{tr}\left(\left(B B^{T} X^{T} C^{T}+B B^{T} X^{T} C\right) d X\right) \end{gathered}$
得到：
$\frac{\partial \operatorname{tr}\left(B^{T} X^{T} C X B\right)}{\partial X}=\left(C+C^{T}\right) X B B^{T}$

Reference

（1）https://www.cnblogs.com/pinard/p/10791506.html
（2）矩阵求导知识点总结：https://www.cnblogs.com/gyhhaha/p/11782212.html
（3）wiki百科：https://en.wikipedia.org/wiki/Matrix_calculus
（4）矩阵求导与矩阵微分—中科院博士大佬
（5）矩阵求导术（上）

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制

EazyDevelop社区

从零开始搭建个人RAG知识库：RAGFlow+DeepSeek保姆级教程！

EazyDevelop社区

taosync：适用于AList v3的自动化同步工具

在现代生活中，数据同步和备份已成为维护数据安全的关键环节。taosync是一款专为AList v3设计的自动化同步工具，能够帮助用户轻松地同步和备份他们的数据到多个网盘或FTP存储服务。这款工具的开发初衷是为了保存孩子的成长照片，其名称“taoSync”也因此而来。taosync以开源免费的形式提供，支持几乎所有的常用平台，并且提供了完善的日志记录、任务管理以及安全的密码加密功能。## 项目技