单个工具示例
伽马回归具有一个单个工具示例。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
伽马回归工具将伽马分布的、严格正相关变量(目标变量)与预期会对目标变量产生影响的一个或多个变量(预测变量)相关联。
在许多应用中,目标变量的值始终严格为正数(即从不为零或负值),但往往聚集在观测值的较小数值区,在少数情况下为较大值。该性质的目标变量代表一种数据生成流程,其与传统线性回归模型背后的正态性假设不一致。然而,这些值始终为正数,且并不总是整数,因此它们不遵循基于泊松分布或负二项分布的流程。它们与基于伽马分布的流程一致,可以通过广义线性模型框架,使用与线性回归类似的方法进行估计。
借助此工具,如果输入数据来自常规 Alteryx 数据流,则使用开源的 R glm 函数进行模型估计。如果输入来自 XDF 输入工具或 XDF 输出工具,则使用 Revo ScaleR rxGlm 函数进行模型估计。使用基于 Revo ScaleR 的函数的优势在于,它允许分析更大(超过内存)的数据集,但代价是创建 XDF 文件需要额外开销,且无法创建开源 R 函数能提供的某些模型诊断输出。
此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。请访问下载和使用预测工具。
Alteryx 数据流或 XDF 元数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。
使用配置选项卡为伽马回归设置控件。
模型名称:需要为每个模型命名,以便以后可以对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。
选择目标变量:从要预测的数据流中选择字段。
选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。
模型类型:包含 log(日志)、inverse(反转)和 identity(身份)选项的下拉框。该选项确定在估算广义线性模型时与伽马族一起使用的链接函数。
在模型估计中使用样本权重?(可选)......:选中该复选框,然后从数据流中选择权重字段,以估计使用样本权重的模型。
使用图表选项选项卡设置图表输出控件。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
O 锚点:包含序列化模型及其模型名称的表格。
R 锚点:包含由伽马回归工具生成的报告片段:统计摘要、II 型偏差分析 (ANOD) 和基本诊断图。如果模型输入来自 XDF 输出或 XDF 输入工具,则不会生成 II 型偏差分析表格和基本诊断图。