c8586c80f2e57d33a22387f50c6a672b.png

线性回归

线性回归是线性模型中最经典的一种。线性模型一般用公式

来表示,其中

是一组权重的向量,
x
的向量表示。

线性模型具有很好的可解释性,譬如

就可以明显看出来

这一个属性在三个属性中最重要,而
更重要。

同时线性模型的优点还在于易于建模,形式简单。且很多非线性模型都可在线性模型的基础上通过引入层级结构或高维映射获得。

给定一个数据集D满足

其中每一个

都满足

线性回归要做的事情是将

输出的尽量往
对应的真实的
上拟合,用公式表达就是

使得

(PS:这个符号“渐进等于”,大致指左边可以连续变化到右边)

要想使得拟合呈现较高的水平,就得选择最适合的

。这里为了方便,我们假设就只有一个属性,所以只有一个
需要选择。我们可以使用
均方误差

其中

表示w和b的解,
就是使后面这个式子取到最小时
的取值。

均方误差的公式对应了欧几里得距离(欧氏距离)。其公式在二维空间的表达如下:

基于均方误差最小化来进行模型求解的方法称作“最小二乘法”,最小二乘法的用途很广,不仅限于线性回归。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。下图是具有两个属性的Linear Regression优化的直观解释。

52808ea1a58d8fd5afbd3ecc31f89c02.png
(有2个属性的线性回归优化图)

优化目标就是图中线段距离平方的均值,也就是最小化到分割平面的距离和。

求解

使
最小化的过程,称为线性回归模型的最小二乘估计。具体推导过程可看西瓜书,南瓜书。
是凸函数,当它关于
的导数均为0的时候,
可得到解析解。

凸函数:对区间

上定义的函数
,若它对区间中任意两点
均有
,则称
为区间
上的凸函数(convex function)。对实数集上的导数,可通过求二阶导数来判别:若二阶导在区间上非负,则称为凸函数;若二阶导在区间上恒大于0,则称为严格凸函数。

衍生至多变量线性回归,求解过程类似,可得到

其中

最终学习到的线性回归模型为

如果求逆不好求的话可以不使用解析解,而是使用梯度下降等方式去求最优解。现实任务里

往往不是满秩的,此时可解出多个
,它们都能使均方误差最小化。选择哪个解作为输出,将由学习算法的归纳偏好决定,常见的作法是引入正则化。

我们最后可以把线性回归模型简单的写成

如果我们假设输出标记其实是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标,即

广义线性回归的参数估计通常都是通过加权最小二乘法或者极大似然估计进行。

关于使用极大似然估计推导线性回归的可以参考以下两篇文章:

极大似然,机器学习 --- 2. 从最大似然再看线性回归,

(参考:周志华《机器学习》,南瓜书,)

Logo

一站式 AI 云服务平台

更多推荐