机器学习：在SAS中运行随机森林

原文链接：http://tecdat.cn/?p=7661为了在SAS中运行随机森林，我们必须使用PROC HPFOREST指定目标变量，并概述天气变量是“类别”还是“定量”。为了进行此分析，我们使用了目标（Repsone变量），该目标是分类的（SAS语言中标称的），如下面的图像代码中所描述的黄色和红色：运行代码后，我们得到了一系列表格，这些表格将详细分析数据。例如，模型信息让我.........

拓端研究室

2853人浏览 · 2019-10-16 12:23:26

拓端研究室 · 2019-10-16 12:23:26 发布

全文链接：http://tecdat.cn/?p=7661

原文出处：拓端数据部落公众号

视频：从决策树到随机森林：R语言信用卡违约分析信贷数据实例

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

，时长10:11

为了在SAS中运行随机森林，我们必须使用PROC HPFOREST指定目标变量，并说明天气变量是“类别”还是“定量”。为了进行此分析，我们使用了目标（Repsone变量），该目标是分类的（SAS语言中标称的），如下面的图像代码中所描述的黄色和红色：

运行代码后，我们得到了一系列表格，这些表格将详细分析数据。例如，模型信息让我们知道，随机选择了3个变量来测试每个节点或每个树中可能的分割（黄色）。我们还可以看到，运行的最大树数为100，如蓝色下划线所示。

HPFOREST仅使用在任何观察值下均没有缺失记录的有效变量。但是，我们还可以看到，在研究样本的213个国家中，有213个被利用。

接下来，我们可以看到模型生成带有“基准拟合统计量”的表。就本研究中的数据而言，我们可以看到该模型识别出38％的误分类，换句话说是62％的准确分类。这表示大部分样本已在每个随机选择的样本中正确分类。

在下表中分析森林时，我们可以看到误分类率已经达到了最低点，这表明在OOB样本中使用该模型进行测试时，误分类率仅在22％。

最后，我们看到SAS POC HPFOREST为我们提供了“变量重要性”表。下表概述了每个变量如何有助于模型的可预测性的重要性等级。如下图所示，酒精变量排名最高。

现在，以下内容将帮助我们理解如何阅读表格：

规则数：告诉我们使用变量的拆分规则数
Gini OOB：这是在“ Out of Bag”阶段中计算出的数据
拟合统计告诉我们，OOB数据的偏差较小，因此，数据通过OOB Gini度量进行排序
就预测自杀率高于正常水平而言，这些变量被列为高度重要性（顶部）和最低重要性（底部）。
从下表中我们可以看出，最容易预测模型自杀率高于正常模型的变量是酒精消费量，就业率和城市率。

我们可以看到随机森林是一种数据挖掘算法，可以选择重要的解释变量，这些变量可以用于确定因变量（目标变量）的分类结果还是定量结果。此外，本文还允许我们结合使用分类变量和定量变量。总之，这个森林让我们知道哪些变量很重要，但彼此之间没有关系。

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

仓颉迁移实战：将 Node.js 微服务移植到 Cangjie 的工程化评测

EazyDevelop社区

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制

EazyDevelop社区

taosync：适用于AList v3的自动化同步工具

在现代生活中，数据同步和备份已成为维护数据安全的关键环节。taosync是一款专为AList v3设计的自动化同步工具，能够帮助用户轻松地同步和备份他们的数据到多个网盘或FTP存储服务。这款工具的开发初衷是为了保存孩子的成长照片，其名称“taoSync”也因此而来。taosync以开源免费的形式提供，支持几乎所有的常用平台，并且提供了完善的日志记录、任务管理以及安全的密码加密功能。## 项目技