作者 | Harper

审核 | gongyouliu

编辑 | auroral-L

机器学习应用

到上期内容为止,我给大家介绍了几种常见的机器学习算法,本期给大家讲一下机器机器学习算法应用。

首先要了解一下偏差与方差权衡,事实上,机器学习中最大的挑战之一是要弄清楚机器创建的模型是否有偏差或者差异,也就是说机器是否适合这些数据。当模型相对于数据的复杂性来说过于简单时就会产生这种错误,这叫做偏差,而当模型过于复杂不能满足数据的简单性时则会产生方差。如果模型有很高的偏差,那么基于该模型的预测将会一直是错误的,而如果模型有很高的方差,预测就会是不一致的,所以创建一个能产生准确结果的模型是一种权衡,通常被称为偏差-方差权衡。当机器的预测或者分类精度达不到目标的话,我们就需要调整算法或者数据来减少偏差和方差。

我们知道机器学习是用来创建模型的工具,但是这些算法不是现成的,需要为特定的应用场景选择超参数。也就是上期内容给大家讲到的给预测因子赋予不同的权重。需要在小数据集上进行实验,分析结果,调整超参数来获得更精确的结果。一个模型的效果差通常可以归因于欠拟合或者过拟合。对于欠拟合的话,一个简单的模型使得机器学习更快,但是精度会不足,因此会导致高偏差,而在过度拟合的情况下,模型试图解释所有的数据,因此对训练数据中的微小变化过于敏感,一般会导致高方差。为了避免欠拟合与过拟合,就需要捕获更多的信号和更少的噪声。信号是用来描述预测因子的,这些预测因子是准确预测和分类的关键。噪声是数据集中不相关的数据或者随机性,会降低预测或分类的准确性。

在选择算法的时候,我们可以尝试更具经验性的方法。在将选择范围缩小到两个或多个算法之后,使用它们中的每一个和你拥有的数据来训练和测试机器,并关注哪个算法提供了最准确的结果。例如,如果你正在研究一个分类问题,可以在k最近邻和朴素贝叶斯上运行训练数据,然后对每个算法运行测试数据,看哪一个算法最能准确地预测一个特定的未分类实体属于哪个类。

我们也可以选择集成建模,集成建模可以用不同的方法进行,一种选择是将两种或者两种以上算法的结果结合起来,另一种是创建不同的数据样本,将每个数据样本提供给机器学习算法,然后将输出结合起来做出最终决策。具体有自助投票、自适应提升、堆叠这三种方法。

自助投票就是创建两个或多个数据集,例如随机抽取两个样本,然后将每个数据集输人一个分类器算法,例如决策树算法。结果是机器基于相同数据的变体创建了两个不同的决策树。在决策树上使用此方法可以减少方差,从而提高整体性能。

在自适应提升方法中,机器学习分类器关注难以正确分类的数据,并赋予它们很高的权重。这个过程是以迭代方式运行,并通过重新加权数据来学习不同的分类器,以便较新的分类器更关注以前分类器错误分类的数据。它也可以减少方差,但对异常值很敏感。

对于堆叠,是使用两个或更多不同的机器学习算法,并使用另一个元学习器组合其结果,以提高分类性能。

本内容来源于「数据与智能」创始人刘强翻译的畅销书「认识AI:人工智能如何赋能商业」,喜欢的读者可以点击下面链接直接购买。

本文的视频版本可以直接点击下面视频观看,欢迎关注数据与智能视频号获取更多精彩视频。

6e7092cf42219367d4ed829ca0163584.png

Logo

一站式 AI 云服务平台

更多推荐