机器学习入门：第七章广义线性模型高斯分布伯努利分布的另一个意义(1)

广义线性模型广义线性模型的理论基础很多，这里直接拿过来用：广义线性模型：给定特征属性x和参数θ\thetaθ后，y的条件概率P(y∣x;θ)P(y|x;\theta)P(y∣x;θ)服从指数分布族其中，指数分布形式如下：P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))P(y;η)=b(y)exp(ηTT(y)−a(η)

go2coding

1225人浏览 · 2022-04-15 09:55:10

go2coding · 2022-04-15 09:55:10 发布

广义线性模型

广义线性模型的理论基础很多，这里直接拿过来用：
广义线性模型：

给定特征属性x和参数 $θ\theta$ 后，y的条件概率 $P(y∣x;θ)P(y|x;\theta)$ 服从指数分布族其中，指数分布形式如下：

$P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))$

预测 $T (y)$ 的期望，即计算 $E [T (y) ∣ x]$ 。
$η\eta$ 与x之间是线性的，即 $η=θTx\eta=\theta^Tx$ 。

高斯分布的另一种看法

把高斯分布看成是指数分布族：

$P(y)=12πδexp(−(y−μ)22δ2)=12πδexp(−y2−2yμ+μ22δ2)=12πδexp(−y22δ2)exp(yμδ2−μ22δ2)P(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{(y-\mu)^2}{2\delta^2})\\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2-2y\mu+\mu^2}{2\delta^2})\\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2})exp(\frac{y\mu}{\delta^2}-\frac{\mu^2}{2\delta^2})$

对比一下指数分布形式：

$b(y)=12πδexp(−y22δ2),η=μδ2,T(y)=y,a(η)=μ22δ2b(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2}),\eta=\frac{\mu}{\delta^2},T(y)=y,a(\eta)=\frac{\mu^2}{2\delta^2}$

根据广义线性模型第三条：

$η=μδ2=θTx\eta=\frac{\mu}{\delta^2}=\theta^Tx$

根据极大似然估计：

$L(θ)=∏i=1n12πδe−(yi−μ)22δ2L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\mu)^2}{2\delta^2}}$

因为 $δ\delta$ 对模型参数的选择没有影响，这里假设 $δ2=1\delta^2=1$

$L(θ)=∏i=1n12πδe−(yi−θTx)22δ2L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\theta^Tx)^2}{2\delta^2}}$

目标函数最大值，只需要：

$J(θ)=12∑i=1m(y(i)−θTx(i))2J(\theta)=\frac{1}{2}\sum_{i=1}^m(y(i)-\theta^Tx^{(i)})^2$

对 $J(θ)J(\theta)$ 求导数，这里的目标函数和最小二乘法的算法是一样的，在这里我们采用的是极大似然估计的方法，得出的结果跟最小二乘法是一样的，当时高斯提出最小二乘法，并不是使用极大似然，也可以说明样本误差是服从高斯分布的，慢慢的看到了一种各种算法大融合的趋势。最小二乘法，还有一种概率上的解释。在这里：

假设观察数据是线性关系，表示为：

$y(i)=θTx(i)+ϵ(i)y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$

而这里的误差 $ϵ(i)\epsilon^{(i)}$ 服从高斯分布。

$P(ϵ(i))=12πδexp(−(ϵ(i))22δ2)=12πδexp(−y(i)−θTxi22δ2)P(\epsilon(i))=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{({\epsilon^{(i)})}^2}{2\delta^2}) \\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{{y(i)-\theta^Tx^{i}}^2}{2\delta^2})$

利用极大似然，目标函数跟广义线性模型是一样的。又一种方法解释最小二乘法的合理性。

伯努利分布–Logistic回归的含义

继续回到广义线性模型，看完了正态分布，继续来看伯努利分布，伯努利分布是最简单的一种分布，也叫0-1分布，即成功为1，失败为0。
概率密度函数为：

$P(y;ϕ)=ϕy(1−ϕ)(1−y)P(y;\phi)=\phi^y(1-\phi)^{(1-y)}$

变形，把它变成指数分布族的形式：

$P(y;ϕ)=ϕy(1−ϕ)(1−y)=exp(ln(ϕy(1−ϕ)(1−y)))=exp(ylnϕ+(1−ϕ)(1−y))=exp(ylnϕ1−ϕ+ln(1−ϕ))P(y;\phi)=\phi^y(1-\phi)^{(1-y)}\\ =exp(ln(\phi^y(1-\phi)^{(1-y)}))\\ =exp(yln\phi+(1-\phi)(1-y))\\ =exp(yln\frac{\phi}{1-\phi}+ln(1-\phi))$

对比指数分布族，有

$b(y)=1,η=lnϕ1−ϕ,T(y)=y,a(η)=−ln(1−ϕ)b(y)=1,\eta=ln\frac{\phi}{1-\phi},T(y)=y,a(\eta)=-ln(1-\phi)$

如下：

$η=lnϕ1−ϕ⇒ϕ=11+e−η\eta=ln\frac{\phi}{1-\phi}\Rightarrow \phi=\frac{1}{1+e^{-\eta}}$

在利用广义线性模型第三点：

$η=θTx\eta=\theta^Tx$

可得：

$θ=11+e−θTx\theta=\frac{1}{1+e^{-\theta^Tx}}$

对这个公式，是不是非常的熟悉。
在Logistic回归中要归类的是喜欢和不喜欢，属于伯努利分布，之前Logistic回归为何把Sigmoid函数取为：

$11+e−θTx\frac{1}{1+e^{-\theta^Tx}}$

是有理论基础的，也就是广义线性模型。

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制

EazyDevelop社区

从零开始搭建个人RAG知识库：RAGFlow+DeepSeek保姆级教程！

EazyDevelop社区

taosync：适用于AList v3的自动化同步工具

在现代生活中，数据同步和备份已成为维护数据安全的关键环节。taosync是一款专为AList v3设计的自动化同步工具，能够帮助用户轻松地同步和备份他们的数据到多个网盘或FTP存储服务。这款工具的开发初衷是为了保存孩子的成长照片，其名称“taoSync”也因此而来。taosync以开源免费的形式提供，支持几乎所有的常用平台，并且提供了完善的日志记录、任务管理以及安全的密码加密功能。## 项目技