机器学习入门:第七章 广义线性模型 高斯分布 伯努利分布的另一个意义(1)
广义线性模型广义线性模型的理论基础很多,这里直接拿过来用:广义线性模型:给定特征属性x和参数θ\thetaθ后,y的条件概率P(y∣x;θ)P(y|x;\theta)P(y∣x;θ)服从指数分布族其中,指数分布形式如下:P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))P(y;η)=b(y)exp(ηTT(y)−a(η)
广义线性模型
广义线性模型的理论基础很多,这里直接拿过来用:
广义线性模型:
- 给定特征属性x和参数θ\thetaθ后,y的条件概率P(y∣x;θ)P(y|x;\theta)P(y∣x;θ)服从指数分布族其中,指数分布形式如下:
P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))P(y;η)=b(y)exp(ηTT(y)−a(η))
-
预测T(y)T(y)T(y)的期望,即计算E[T(y)∣x]E[T(y)|x]E[T(y)∣x]。
-
η\etaη与x之间是线性的,即η=θTx\eta=\theta^Txη=θTx。
高斯分布的另一种看法
把高斯分布看成是指数分布族:
P(y)=12πδexp(−(y−μ)22δ2)=12πδexp(−y2−2yμ+μ22δ2)=12πδexp(−y22δ2)exp(yμδ2−μ22δ2)P(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{(y-\mu)^2}{2\delta^2})\\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2-2y\mu+\mu^2}{2\delta^2})\\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2})exp(\frac{y\mu}{\delta^2}-\frac{\mu^2}{2\delta^2})P(y)=2πδ1exp(−2δ2(y−μ)2)=2πδ1exp(−2δ2y2−2yμ+μ2)=2πδ1exp(−2δ2y2)exp(δ2yμ−2δ2μ2)
对比一下指数分布形式:
b(y)=12πδexp(−y22δ2),η=μδ2,T(y)=y,a(η)=μ22δ2b(y)=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{y^2}{2\delta^2}),\eta=\frac{\mu}{\delta^2},T(y)=y,a(\eta)=\frac{\mu^2}{2\delta^2}b(y)=2πδ1exp(−2δ2y2),η=δ2μ,T(y)=y,a(η)=2δ2μ2
根据广义线性模型第三条:
η=μδ2=θTx\eta=\frac{\mu}{\delta^2}=\theta^Txη=δ2μ=θTx
根据极大似然估计:
L(θ)=∏i=1n12πδe−(yi−μ)22δ2L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\mu)^2}{2\delta^2}}L(θ)=i=1∏n2πδ1e−2δ2(yi−μ)2
因为δ\deltaδ对模型参数的选择没有影响,这里假设δ2=1\delta^2=1δ2=1
L(θ)=∏i=1n12πδe−(yi−θTx)22δ2L(\theta)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-\theta^Tx)^2}{2\delta^2}}L(θ)=i=1∏n2πδ1e−2δ2(yi−θTx)2
目标函数最大值,只需要:
J(θ)=12∑i=1m(y(i)−θTx(i))2J(\theta)=\frac{1}{2}\sum_{i=1}^m(y(i)-\theta^Tx^{(i)})^2J(θ)=21i=1∑m(y(i)−θTx(i))2
对J(θ)J(\theta)J(θ)求导数,这里的目标函数和最小二乘法的算法是一样的,在这里我们采用的是极大似然估计的方法,得出的结果跟最小二乘法是一样的,当时高斯提出最小二乘法,并不是使用极大似然,也可以说明样本误差是服从高斯分布的,慢慢的看到了一种各种算法大融合的趋势。最小二乘法,还有一种概率上的解释。在这里:
假设观察数据是线性关系,表示为:
y(i)=θTx(i)+ϵ(i)y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}y(i)=θTx(i)+ϵ(i)
而这里的误差ϵ(i)\epsilon^{(i)}ϵ(i)服从高斯分布。
P(ϵ(i))=12πδexp(−(ϵ(i))22δ2)=12πδexp(−y(i)−θTxi22δ2)P(\epsilon(i))=\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{({\epsilon^{(i)})}^2}{2\delta^2}) \\ =\frac{1}{\sqrt{2\pi\delta}}exp(-\frac{{y(i)-\theta^Tx^{i}}^2}{2\delta^2})P(ϵ(i))=2πδ1exp(−2δ2(ϵ(i))2)=2πδ1exp(−2δ2y(i)−θTxi2)
利用极大似然,目标函数跟广义线性模型是一样的。又一种方法解释最小二乘法的合理性。
伯努利分布–Logistic回归的含义
继续回到广义线性模型,看完了正态分布,继续来看伯努利分布,伯努利分布是最简单的一种分布,也叫0-1分布,即成功为1,失败为0。
概率密度函数为:
P(y;ϕ)=ϕy(1−ϕ)(1−y)P(y;\phi)=\phi^y(1-\phi)^{(1-y)}P(y;ϕ)=ϕy(1−ϕ)(1−y)
变形,把它变成指数分布族的形式:
P(y;ϕ)=ϕy(1−ϕ)(1−y)=exp(ln(ϕy(1−ϕ)(1−y)))=exp(ylnϕ+(1−ϕ)(1−y))=exp(ylnϕ1−ϕ+ln(1−ϕ))P(y;\phi)=\phi^y(1-\phi)^{(1-y)}\\ =exp(ln(\phi^y(1-\phi)^{(1-y)}))\\ =exp(yln\phi+(1-\phi)(1-y))\\ =exp(yln\frac{\phi}{1-\phi}+ln(1-\phi))P(y;ϕ)=ϕy(1−ϕ)(1−y)=exp(ln(ϕy(1−ϕ)(1−y)))=exp(ylnϕ+(1−ϕ)(1−y))=exp(yln1−ϕϕ+ln(1−ϕ))
对比指数分布族,有
b(y)=1,η=lnϕ1−ϕ,T(y)=y,a(η)=−ln(1−ϕ)b(y)=1,\eta=ln\frac{\phi}{1-\phi},T(y)=y,a(\eta)=-ln(1-\phi)b(y)=1,η=ln1−ϕϕ,T(y)=y,a(η)=−ln(1−ϕ)
如下:
η=lnϕ1−ϕ⇒ϕ=11+e−η\eta=ln\frac{\phi}{1-\phi}\Rightarrow \phi=\frac{1}{1+e^{-\eta}}η=ln1−ϕϕ⇒ϕ=1+e−η1
在利用广义线性模型第三点:
η=θTx\eta=\theta^Txη=θTx
可得:
θ=11+e−θTx\theta=\frac{1}{1+e^{-\theta^Tx}}θ=1+e−θTx1
对这个公式,是不是非常的熟悉。
在Logistic回归中要归类的是喜欢和不喜欢,属于伯努利分布,之前Logistic回归为何把Sigmoid函数取为:
11+e−θTx\frac{1}{1+e^{-\theta^Tx}}1+e−θTx1
是有理论基础的,也就是广义线性模型。
更多推荐


所有评论(0)