逐步回归工具
单个工具示例
“连接”工具有一个单个工具示例。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
“逐步”工具为存在大量潜在预测因子的线性、逻辑和其他传统回归模型确定模型的最佳预测因子。
有两种基本方法用于实现 逐步回归 回归。
第一个(称为向后选择)涉及使用一个模型,该模型包括所有被认为可能影响目标变量的变量, 然后根据拟合度量从原始模型中按顺序删除最不重要的变量,该度量根据模型中包含的变量数量进行调整。这一过程继续进行,在随后的向后步骤中删除其他变量,直至调整后的拟合度量没有进一步的改进。
第二种基本方法(称为向前变量选择)从一个只包含一个常量的模型开始,然后在该模型中添加一个在调整后的拟合度量中提供最大改进的潜在变量集合中的变量。重复此过程以使用一组额外的前进步骤添加其他变量,当调整后的拟合度量值没有进一步改善时结束。在向后变量选择的基础上,被删除的变量在后续步骤中永远不会重新进入,而在向前选择中,一旦添加了变量,就永远不会在后续步骤中删除。可以使用混合方法,从一个较大的("最大")初始模型和第一个向后的步骤开始,然后在每个后续步骤中评估向前和向后的移动。
基于Alteryx R的逐步回归工具会使用后向变量选择以及后向和前向变量混合。要使用该工具,请先创建一个"最大"回归模型,其中包含您认为可能重要的所有变量,然后使用 逐步回归 回归工具根据调整后的拟合度量值确定应删除这些变量中的哪些。为用户提供了2种不同的调整后拟合度量选择,即Akaike信息标准**(或AIC)和Bayesian信息标准***(或BIC)。这两个度量值彼此相似,但BIC对模型中包含的变量数量的惩罚较大,通常导致最终模型的变量少于使用AIC时的情况。
借助此工具,如果输入数据来自常规 Alteryx 数据流,则使用开源的 R glm 函数进行模型估计。如果输入数据来自 XDF 输出工具或 XDF 输入工具,则使用 RevoScaleR rxDForest 函数进行模型估计。使用基于 Revo ScaleR 的函数的优势在于,它允许分析更大(超过内存)的数据集,但代价是创建 XDF 文件需要额外开销,无法创建开源 R 函数提供的某些模型诊断输出,并且只能生成泊松回归模型。
此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。请访问下载和使用预测工具。
连接输入
用于创建"最大"模型的计数回归,线性回归或逻辑回归工具的输出流。该流可以输入到工具的任意一侧。
用于创建"最大"模型的相同 Alteryx数据流或XDF元数据流。该流可以输入到工具的任意一侧。
配置工具
使用“配置”选项卡为时间序列图设置控件。
新模型的名称: 这是使用基于搜索方向和选择条件的逐步回归变量选择找到的最佳模型。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。
搜索方向: 搜索方向是同时涉及后退和前进步骤(方法以后退步骤开始),还是仅使用后退步骤。
调整后的拟合度量: 用于比较不同模型和选择最佳模型的标准。提供的选项包括Akaike信息标准(AIC)或Bayesian信息标准(BIC)。
使用“图表选项”选项卡设置图表输出控件(可选)。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
查看输出
将浏览工具连接到每个输出锚点以查看结果。
o 锚点:包含序列化模型的表,其中包含模型名称和对象大小。
R 锚点:包含由计数回归工具生成的报告片段:统计摘要、II 型偏差分析 (ANOD) 和基本诊断图。如果模型输入来自 XDF 输出或 XDF 输入工具,则不会生成 II 型偏差分析表格和基本诊断图。
*https://en.wikipedia.org/wiki/Stepwise_regression **https://en.wikipedia.org/wiki/Akaike_information_criterion ***https://en.wikipedia.org/wiki/Bayesian_information_criterion