“森林模型”工具
单个工具示例
“森林模型”有一个“单个工具示例”。转至示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
“森林模型”工具创建一个模型,该模型构建一组决策树模型,以基于一个或多个预测变量来预测目标变量。不同的模型使用原始数据的随机样本进行构建,此过程称为有放回抽样。此外,每个树拆分时只考虑有限数量的变量,变量数可由 R 自动确定或由用户进行设置。有关详细信息,请转至随机森林。
此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 工具和 R 工具使用的软件包。有关详细信息,请转至下载和使用预测工具。
常规处理下的工具配置
连接输入
连接 Alteryx 数据流或 XDF 元数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。
如果输入数据来自 Alteryx 数据流,则使用开源 R randomForest 函数(来自 randomForest 包)进行模型估计。
如果输入数据来自 XDF 输出工具或 XDF 输入工具,则使用 RevoScaleR rxDForest 函数进行模型估计。使用基于 RevoScaleR 的函数的优点是,它能够分析更大内存无法满足的数据集,但创建 XDF 文件需要额外资源消耗,并且它使用一种算法,该算法需要对数据进行多次传递以创建组合中每一个树,因此速度比开源 randomForest 函数慢得多。因此,强烈建议减少组合中的树数,以使其少于默认的 500 棵。
所需参数
模型名称:为模型输入一个名称,以在其它工具中引用该模型时对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (.) 和下划线 (_)。不允许使用其它特殊字符,R 区分大小写。
选择目标变量:选择要预测的数据。目标变量也称为响应变量或因变量。
选择预测变量:选择要用于影响目标变量值的数据。预测变量也称为功能或自变量。虽然可以选择任意数量的预测变量,但目标变量不应也是预测变量。每个分类预测变量最多可以有 32 个类别。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。
要使用的树数:输入要在森林中包含的树模型的数量。根据 Breiman 的发现,默认值为 500。如果担心模型运行时间较长,请使用 XDF 元数据流减小该值。
指定每次分裂应选择的变量数量:选中此复选框并输入每次拆分时要考虑使用的变量数。
选择模型自定义以修改模型设置。
自定义模型
直接限制每个模型树的总体大小:
树中可允许的总节点数:为那些使用开源随机森林模型的模型而选择。
模型树的最大深度:为使用 RevoScaleR rxDForest 函数的模型而选择
树节点中允许的最小记录数:输入一个值或使用向上和向下箭头来控制每个集成树中允许的最小终端节点的大小。增加此数目将减少每个树中的节点总数。
选择用于模型创建的置换记录:选中此复选框以控制是从有替换还是无替换样本的完整估计样本中进行重新抽样。
为创建每个树数据记录的采样百分比:输入一个值或使用向上和向下箭头来控制是否将全部或仅部分完整估计样本用于每次重新抽样。
图表选项
图大小:选择英寸或厘米来丈量图表大小。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
基本字体大小(点):选择图表中字体的大小。
查看输出
将浏览工具连接到每个输出锚点以查看结果。
O 锚点:在“结果”窗口中显示模型名称和对象大小。
R 锚点:显示模型摘要报告,其中包括摘要和图。
用于数据库内处理的工具配置
“森林模型”工具支持 Microsoft SQL Server 2016 数据库内处理。有关数据库内支持和工具的详细信息,请访问数据库内概述。
当将森林模型工具与另一个数据库内工具一起放置在画布上时,该工具会自动更改为数据库内版本。要更改该工具的版本,请右键单击该工具,指向“选择工具版本”,然后单击该工具的其他版本。有关预测型数据库内工具支持的详细信息,请访问预测分析。
连接输入
连接数据库内数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。
如果输入来自 SQL Server 或 Teradata 数据库内数据流,则将使用 Microsoft 机器学习服务器 rxDForest 函数(来自 RevoScaleR 包)进行模型估计。只要本地计算机和服务器都配置了 Microsoft 机器学习服务器,即可在数据库服务器上进行处理,从而显著提高性能。
所需参数
模型名称:需要为每个模型命名,以便以后可以对其进行识别。您可以选择提供名称,也可以选择自动生成名称。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。
选择目标变量:从要预测的数据流中选择字段。
选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。
要使用的树数:选择要在森林中包含的树模型的数量。根据 Breiman 的发现,默认值为 500。如果担心模型运行时间较长,请使用 XDF 元数据流减小该值。
选择可供每次拆分时选择的特定变量数::选择每次拆分时要考虑使用的变量数。
使用采样权重进行模型估计:单击该复选框,然后从数据流中选择权重字段以估计使用采样权重的模型。如果某字段既用作预测变量,又用作加权变量,则加权变量将显示在模型调用的输出中,并以字符串“right_”为前缀。
自定义模型
直接限制每个模型树的总体大小
树中允许的节点总数:为使用开源 R randomForest 模型的模型选择。
模型树的最大深度:为使用 RevoScaleR rxDForest 函数的模型选择。
树节点中允许的最小记录数:选择一个值来控制每个集成树中允许的最小终端节点的大小。增加此数目将减少每个树中的节点总数。
选择用于创建有替换的每个模型的记录:选择以控制是从有替换还是无替换的完整估计样本中提取有放回抽样复制。
要从中采样以创建每个树的数据记录的百分比:选择以控制是否将全部或仅部分完整估计样本用于形成每个有放回抽样复制。
图表选项
图大小:选择英寸或厘米来丈量图表大小。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
基本字体大小(点):选择图表中字体的大小。
查看输出
将浏览工具连接到每个输出锚点以查看结果。
O 锚点:在“结果”窗口中显示模型名称和对象大小。
R 锚点:显示模型摘要报告,其中包括摘要和图。