【机器学习中的矩阵求导】（七）矩阵向量化复习

矩阵向量化，在矩阵乘法、转置、逐元素乘法等会用到；另外可以使用numpy的kron计算kronecker积。

山顶夕景

4102人浏览 · 2021-12-06 17:04:26

山顶夕景 · 2021-12-06 17:04:26 发布

学习总结

（1）矩阵乘法。
$\operatorname{Vec}(\operatorname{ABC})=\left(\mathbf{C}^{\top} \otimes \mathbf{A}\right) \operatorname{Vec}(\mathbf{B})$

（2）矩阵转置。 ${K}_{m n}$ 是 $m n$ × $m n$ 的交换矩阵：
$\operatorname{Vec}\left(\mathbf{A}^{\top}\right)=\mathbf{K}_{m n} \mathbf{V e c}(\mathbf{A})$
（3）逐元素乘法。其中 $\operatorname{diag}(\mathbf{V e c}(\mathbf{A}))$ 是 $m n$ × $m n$ 的对角矩阵，元素也是按照A矩阵向量化后的元素排列。
$\mathbf{V e c}(\mathbf{A} \odot \mathbf{X})=\operatorname{diag}(\mathbf{V e c}(\mathbf{A})) \mathbf{V e c}(\mathbf{X})$

一、几个梯度的栗子

1.1 迹函数相对于矩阵的梯度

迹函数对矩阵求导：
$\frac{\partial\left(t r\left(\mathbf{Z Z}^{T}\right)\right)}{\partial \mathbf{Z}}=\frac{\partial\left(t r\left(\mathbf{Z}^{T} \mathbf{Z}\right)\right)}{\partial \mathbf{Z}}=2 \mathbf{Z}$
在这里插入图片描述

1.2 行列式相对于矩阵的梯度

矩阵的行列式对矩阵求导：
在这里插入图片描述

二、实值函数相对于实向量的梯度

2.1 实值标量函数对向量的梯度

其实就是标量函数对向量的求导，在之前我们用过定义法求导：
寻找较复杂的实值函数求导更方便的方法，不是每次都先针对任意一个分量，再进行排列。

标量对向量求导的基本法则（PS：和我们以前标量对标量求导的法则类似）：

常量对向量的求导结果为0
线性法则：如果 $f$ 、 $g$ 都是实值函数， $c 1$ 、 $c 2$ 为常数，则： $\frac{\partial\left(c_{1} f(\mathbf{x})+c_{2} g(\mathbf{x})\right.}{\partial \mathbf{x}}=c_{1} \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}+c_{2} \frac{\partial g(\mathbf{x})}{\partial \mathbf{x}}$
乘法法则：如果 $f$ 、 $g$ 都是实值函数，则： $\frac{\partial f(\mathbf{x}) g(\mathbf{x})}{\partial \mathbf{x}}=f(\mathbf{x}) \frac{\partial g(\mathbf{x})}{\partial \mathbf{x}}+\frac{\partial f(\mathbf{x})}{\partial \mathbf{x}} g(\mathbf{x})$ 如果不是实值函数，则不能这样用乘法法则。
除法法则：如果 $f$ 、 $g$ 都是实值函数，且 $g (x) \neq = 0$ ，则： $\frac{\partial f(\mathbf{x}) / g(\mathbf{x})}{\partial \mathbf{x}}=\frac{1}{g^{2}(\mathbf{x})}\left(g(\mathbf{x}) \frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}-f(\mathbf{x}) \frac{\partial g(\mathbf{x})}{\partial \mathbf{x}}\right)$

PS：标量对矩阵求导，也有类似上面的法则。

简单来说，标量函数对向量的求导：
$\nabla_{\mathbf{x}} f(\mathbf{x})=\left[\frac{\partial f(\mathbf{x})}{\partial x_{1}}, \frac{\partial f(\mathbf{x})}{\partial x_{2}}, \cdots, \frac{\partial f(\mathbf{x})}{\partial x_{n}}\right]^{T}=\frac{\partial f(\mathbf{x})}{\partial \mathbf{x}}$

以列向量为自变量的标量函数，其对于自变量的梯度仍然为一阶数相同的列向量
梯度的每个分量代表着函数在该分量方向上的变化率。

2.2 实值向量函数对向量的梯度

即向量对向量求导。

（1）先回顾之前的定义法：
$\mathbf{y} = \mathbf{A} \mathbf{x}$ 是向量。

$\mathbf{A}$ 为n×m矩阵
$\mathbf{x}$ 为m维向量； $\mathbf{y}$ 为n维向量
先分别求【矩阵的第 $i$ 行和向量的内积】对向量的第 $j$ 分量求导，定义法： $\frac{\partial \mathbf{A}_{\mathbf{i}} \mathbf{x}}{\partial \mathbf{x}_{\mathbf{j}}}=\frac{\partial A_{i j} x_{j}}{\partial \mathbf{x}_{\mathbf{j}}}=A_{i j}$
所以结果是矩阵 $\mathbf{A}$ 的 $(i, j)$ 位置的值，排列组成的结果 $\mathbf{A}$ ，而非 $\mathbf{A}^{T}$ 。

（2）回到这里，首先已知：
$\mathbf{f}(\mathbf{x})=\left[f_{1}(\mathbf{x}), f_{2}(\mathbf{x}), \cdots, f_{m}(\mathbf{x})\right]$
实值向量函数对于实向量的梯度为：
$\frac{\partial \mathbf{f}(\mathbf{x})}{\partial \mathbf{x}}=\left[\frac{\partial f_{1}(\mathbf{x})}{\partial \mathbf{x}}, \frac{\partial f_{2}(\mathbf{x})}{\partial \mathbf{x}}, \cdots, \frac{\partial f_{m}(\mathbf{x})}{\partial \mathbf{x}}\right]=\left[\begin{array}{cccc} \frac{\partial f_{1}(\mathbf{x})}{\partial x_{1}} & \frac{\partial f_{2}(\mathbf{x})}{\partial x_{1}} & \ldots & \frac{\partial f_{m}(\mathbf{x})}{\partial x_{1}} \\ \frac{\partial f_{1}(\mathbf{x})}{\partial x_{2}} & \frac{\partial f_{2}(\mathbf{x})}{\partial x_{2}} & \ldots & \frac{\partial f_{m}(\mathbf{x})}{\partial x_{2}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{1}(\mathbf{x})}{\partial x_{n}} & \frac{\partial f_{2}(\mathbf{x})}{\partial x_{n}} & \ldots & \frac{\partial f_{m}(\mathbf{x})}{\partial x_{n}} \end{array}\right]=\nabla_{\mathbf{x}} \mathbf{f}(\mathbf{x})$

向量函数对于向量的求导，相当于向量函数中的每一个分量函数对向量求导。
行向量函数对列向量自变量求导形成矩阵；
列向量函数对行向量自变量求导也可以形成矩阵。

2.3 简单练习

在这里插入图片描述

三、矩阵向量化vec

3.1 向量化定义

向量化算子vec很常用，设 $\mathbf{A}=\left[\mathbf{a}_{\mathbf{i j}}\right]_{\mathbf{m} \times \mathbf{n}}$ ，则按照每列拼接起来组成的向量：
$\mathbf{V} \operatorname{ec}(\mathbf{A})=\left(\mathbf{a}_{11} \mathbf{a}_{21} \cdots \mathbf{a}_{\mathrm{m} 1} ; \mathbf{a}_{12} \mathbf{a}_{22} \cdots \mathbf{a}_{\mathrm{m} 2} ; \cdots ; \mathbf{a}_{1 \mathrm{n}} \mathbf{a}_{2 \mathrm{n}} \cdots \mathbf{a}_{\mathrm{mn}}\right)^{\top}$

3.2 向量化算子性质

（1）线性性质。很好理解，这里vec是线性算子 $\operatorname{Vec}\left(\mathbf{k}_{1} \mathbf{A}+\mathbf{k}_{2} \mathbf{B}\right)=\mathbf{k}_{1} \operatorname{Vec}(\mathbf{A})+\mathbf{k}_{2} \operatorname{Vec} \mathbf{B}$
（2）矩阵乘法。后2个是特例，故记住第一个即可。
$\operatorname{Vec}(\operatorname{ABC})=\left(\mathbf{C}^{\top} \otimes \mathbf{A}\right) \operatorname{Vec}(\mathbf{B})$ $\mathbf{V e c}(\mathbf{A X})=(\mathbf{I} \otimes \mathbf{A}) \mathbf{V} \mathbf{e c}(\mathbf{X})$ $\mathbf{V e c}(\mathbf{X} \mathbf{C})=\left(\mathbf{C}^{\top} \otimes \mathbf{I}\right) \mathbf{V e c}(\mathbf{X})$

（3）矩阵转置。 ${K}_{m n}$ 是 $m n$ × $m n$ 的交换矩阵：
$\operatorname{Vec}\left(\mathbf{A}^{\top}\right)=\mathbf{K}_{m n} \mathbf{V e c}(\mathbf{A})$

（4）逐元素乘法。其中 $\operatorname{diag}(\mathbf{V e c}(\mathbf{A}))$ 是 $m n$ × $m n$ 的对角矩阵，元素也是按照A矩阵向量化后的元素排列。
$\mathbf{V e c}(\mathbf{A} \odot \mathbf{X})=\operatorname{diag}(\mathbf{V e c}(\mathbf{A})) \mathbf{V e c}(\mathbf{X})$

四、Python实现Kronecker积等

可以参考numpy的官方文档。

from numpy import dot,cross,kron
# cross ref:https://docs.scipy.org/doc/numpy/reference/generated/numpy.cross.html#numpy.cross
# dot,kron ref:https://docs.scipy.org/doc/numpy/reference/routines.linalg.html
from scipy.linalg import hadamard
# hadamard ref:https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.hadamard.html#scipy.linalg.hadamard

这里举个求Kronecker积和向量的外积的栗子：

import numpy as np
a = np.array([[1], [2]])
b = np.array([[3], [4]])
kron1 = np.kron(a, b)
outer = np.outer(a, b)
kron2 = np.kron(a, b.T)

结果如下，可以发现Kronecker积结果是，a的1乘b向量，a的2乘b向量，然后两个向量拼接起来。并且如果a向量和b向量的转置进行Kronecker积，其结果和a和b做向量外积outer结果相同。

复习：K=kron（A，B），获得 A 和 B 的 Kronecker 张量积。如果 A 是 m×n 矩阵，而 B 是 p×q 矩阵，则 kron(A,B) 是通过获取 A 元素与矩阵 B 元素之间的所有可能积而形成的一个 mp×nq 矩阵。
在这里插入图片描述【外积】即两个向量的向量积，即两个向量的组成的平面的法向量。
符号表示：a× b
向量积的大小：|a|·|b|·sin<a,b>.
栗子：(x1,y1,z1)×(x2,y2,z2)=(y1z2-y2z1,z1x2-z2x1,x1y2-x2y1)

Reference

（1）https://numpy.org/doc/stable/reference/generated/numpy.kron.html#numpy.kron
（2）numpy中dot()、outer()、multiply()以及matmul()的区别

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制

EazyDevelop社区

从零开始搭建个人RAG知识库：RAGFlow+DeepSeek保姆级教程！

EazyDevelop社区

taosync：适用于AList v3的自动化同步工具

在现代生活中，数据同步和备份已成为维护数据安全的关键环节。taosync是一款专为AList v3设计的自动化同步工具，能够帮助用户轻松地同步和备份他们的数据到多个网盘或FTP存储服务。这款工具的开发初衷是为了保存孩子的成长照片，其名称“taoSync”也因此而来。taosync以开源免费的形式提供，支持几乎所有的常用平台，并且提供了完善的日志记录、任务管理以及安全的密码加密功能。## 项目技