广义线性模型

广义线性模型的理论基础很多,这里直接拿过来用:
广义线性模型:

  • 给定特征属性x和参数θ\thetaθ后,y的条件概率P(y∣x;θ)P(y|x;\theta)P(yx;θ)服从指数分布族其中,指数分布形式如下:

P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))P(y;η)=b(y)exp(ηTT(y)a(η))

  • 预测T(y)T(y)T(y)的期望,即计算E[T(y)∣x]E[T(y)|x]E[T(y)x]

  • η\etaη与x之间是线性的,即η=θTx\eta=\theta^Txη=θTx

高斯分布的另一种看法

把高斯分布看成是指数分布族:

P(y)=12πδexp(−(y−μ)22δ2)=12πδexp(−y2−2yμ+μ22δ2)=12πδexp(−y22δ2)exp(yμδ2−μ22δ2)P(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{(y-\mu)^2}{2\delta^2})\\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2-2y\mu+\mu^2}{2\delta^2})\\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2})exp(\frac{y\mu}{\delta^2}-\frac{\mu^2}{2\delta^2})P(y)=2πδ 1exp(2δ2(yμ)2)=2πδ 1exp(2δ2y22yμ+μ2)=2πδ 1exp(2δ2y2)exp(δ2yμ2δ2μ2)

对比一下指数分布形式:

b(y)=12πδexp(−y22δ2),η=μδ2,T(y)=y,a(η)=μ22δ2b(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2}),\eta=\frac{\mu}{\delta^2},T(y)=y,a(\eta)=\frac{\mu^2}{2\delta^2}b(y)=2πδ 1exp(2δ2y2),η=δ2μ,T(y)=y,a(η)=2δ2μ2

根据广义线性模型第三条:

η=μδ2=θTx\eta=\frac{\mu}{\delta^2}=\theta^Txη=δ2μ=θTx

根据极大似然估计:

L(θ)=∏i=1n12πδe−(yi−μ)22δ2L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\mu)^2}{2\delta^2}}L(θ)=i=1n2πδ 1e2δ2(yiμ)2

因为δ\deltaδ对模型参数的选择没有影响,这里假设δ2=1\delta^2=1δ2=1

L(θ)=∏i=1n12πδe−(yi−θTx)22δ2L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\theta^Tx)^2}{2\delta^2}}L(θ)=i=1n2πδ 1e2δ2(yiθTx)2

目标函数最大值,只需要:

J(θ)=12∑i=1m(y(i)−θTx(i))2J(\theta)=\frac{1}{2}\sum_{i=1}^m(y(i)-\theta^Tx^{(i)})^2J(θ)=21i=1m(y(i)θTx(i))2

J(θ)J(\theta)J(θ)求导数,这里的目标函数和最小二乘法的算法是一样的,在这里我们采用的是极大似然估计的方法,得出的结果跟最小二乘法是一样的,当时高斯提出最小二乘法,并不是使用极大似然,也可以说明样本误差是服从高斯分布的,慢慢的看到了一种各种算法大融合的趋势。最小二乘法,还有一种概率上的解释。在这里:

假设观察数据是线性关系,表示为:

y(i)=θTx(i)+ϵ(i)y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}y(i)=θTx(i)+ϵ(i)

而这里的误差ϵ(i)\epsilon^{(i)}ϵ(i)服从高斯分布。

P(ϵ(i))=12πδexp(−(ϵ(i))22δ2)=12πδexp(−y(i)−θTxi22δ2)P(\epsilon(i))=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{({\epsilon^{(i)})}^2}{2\delta^2}) \\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{{y(i)-\theta^Tx^{i}}^2}{2\delta^2})P(ϵ(i))=2πδ 1exp(2δ2(ϵ(i))2)=2πδ 1exp(2δ2y(i)θTxi2)

利用极大似然,目标函数跟广义线性模型是一样的。又一种方法解释最小二乘法的合理性。

伯努利分布–Logistic回归的含义

继续回到广义线性模型,看完了正态分布,继续来看伯努利分布,伯努利分布是最简单的一种分布,也叫0-1分布,即成功为1,失败为0。
概率密度函数为:

P(y;ϕ)=ϕy(1−ϕ)(1−y)P(y;\phi)=\phi^y(1-\phi)^{(1-y)}P(y;ϕ)=ϕy(1ϕ)(1y)

变形,把它变成指数分布族的形式:

P(y;ϕ)=ϕy(1−ϕ)(1−y)=exp(ln(ϕy(1−ϕ)(1−y)))=exp(ylnϕ+(1−ϕ)(1−y))=exp(ylnϕ1−ϕ+ln(1−ϕ))P(y;\phi)=\phi^y(1-\phi)^{(1-y)}\\ =exp(ln(\phi^y(1-\phi)^{(1-y)}))\\ =exp(yln\phi+(1-\phi)(1-y))\\ =exp(yln\frac{\phi}{1-\phi}+ln(1-\phi))P(y;ϕ)=ϕy(1ϕ)(1y)=exp(ln(ϕy(1ϕ)(1y)))=exp(ylnϕ+(1ϕ)(1y))=exp(yln1ϕϕ+ln(1ϕ))

对比指数分布族,有

b(y)=1,η=lnϕ1−ϕ,T(y)=y,a(η)=−ln(1−ϕ)b(y)=1,\eta=ln\frac{\phi}{1-\phi},T(y)=y,a(\eta)=-ln(1-\phi)b(y)=1,η=ln1ϕϕ,T(y)=y,a(η)=ln(1ϕ)

如下:

η=lnϕ1−ϕ⇒ϕ=11+e−η\eta=ln\frac{\phi}{1-\phi}\Rightarrow \phi=\frac{1}{1+e^{-\eta}}η=ln1ϕϕϕ=1+eη1

在利用广义线性模型第三点:

η=θTx\eta=\theta^Txη=θTx

可得:

θ=11+e−θTx\theta=\frac{1}{1+e^{-\theta^Tx}}θ=1+eθTx1

对这个公式,是不是非常的熟悉。
在Logistic回归中要归类的是喜欢和不喜欢,属于伯努利分布,之前Logistic回归为何把Sigmoid函数取为:

11+e−θTx\frac{1}{1+e^{-\theta^Tx}}1+eθTx1

是有理论基础的,也就是广义线性模型。

Logo

一站式 AI 云服务平台

更多推荐