Skip to main content

Linear Regression Tool Icon 线性回归工具

单个工具示例

“线性回归”具有单个工具示例。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

“线性回归”工具创建一个简单模型来估计值,或者根据线性关系评估变量之间的关系。

两种主要的线性回归类型为非正则化和正则化:

  • 非正则化线性回归产生的线性模型可最大限度地减少训练数据目标变量的实际值与预测值之间的平方误差和。

  • 正则化线性回归在最小化平方误差和的同时,通过对系数的大小施加惩罚项来进行平衡,并倾向于生成更简单、更不容易过度拟合的模型。

此工具使用 R 工具。转到选项 > 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。请访问下载和使用预测工具

线性回归使用的 R 包

R 包

类型

包说明

AlteryxPredictive

自定义

此包提供自定义函数并调用 CRAN 和自定义 R 包。

AlteryxRDataX

自定义

此包提供 Alteryx 与 R 之间的连接以及多个函数,以促进 Alteryx 与 R 之间的交互。

AlteryxRviz

自定义

此包已弃用。它提供的函数可促进 Alteryx 中预测工具(时间序列、网络分析)的交互式可视化。

flightdeck

自定义

此包使您可以轻松创建交互式仪表板来报告预测模型输出。

常规处理下的工具配置

连接输入

连接 Alteryx 数据流或 XDF 元数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。

注意

XDF 为 MRC/MMLS 格式。

如果输入数据来自 Alteryx 数据流,则使用开源 R lm 函数和 glmnet 及 cv.glmnet 函数(来自 glmnet 包)进行模型估计。

如果输入数据来自 XDF 输出工具或 XDF 输入工具,则使用 RevoScaleR rxLinMod 函数进行模型估计。使用基于 RevoScaleR 的函数的优势在于,它允许分析更大(超过内存)的数据集,但代价是创建 XDF 文件需要额外开销,无法创建开源 R 函数提供的某些模型诊断输出。

配置工具

  • 模型名称:为模型输入一个名称,以在其它工具中引用该模型时对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (.) 和下划线 (_)。不允许使用其它特殊字符,R 区分大小写。

  • 选择目标变量:选择要预测的数据。目标变量也称为响应变量或因变量。

  • 选择预测变量:选择要用于影响目标变量值的数据。预测变量也称为功能或自变量。虽然可以选择任意数量的预测变量,但目标变量不应也是预测变量。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。

选择自定义以修改模型交叉验证图表设置。

自定义模型

  • 省略模型常量:选择此选项可省略常量并使最佳拟合线穿过原点。

  • 对加权最小二乘法使用权重变量:选择一个变量,以确定创建最小二乘模型时每条记录的重要程度。

  • 使用正则化回归:选择此选项可在最小化平方误差和的同时,通过对系数的大小施加惩罚项来进行平衡,并生成更简单的模型。

    • 输入 α 值:选择介于 0(岭回归)和 1 (lasso) 之间的值,以衡量对系数的加强程度。

    • 标准化预测变量:选择此选项可根据所使用的算法使所有变量的大小相同。

    • 使用交叉验证确定模型参数:选择此选项可执行交叉验证并获取各种模型参数

      • 重数:选择要将数据分成的重数。重数越大,模型估计质量越高,重数越少,工具运行速度越快。

      • 模型类型:选择模型类型以确定系数。

        • 更简单的模型

        • 样本内标准错误较低的模型

      • 设置种子:选择此选项可确保交叉验证的再现性并选择用于将记录分配给重的种子值。每次运行工作流时选择相同的种子可确保每次同一重中都有相同的记录。该值必须是正整数。

自定义交叉验证

  • 使用交叉验证来确定对模型质量的评估:选择此选项可执行交叉验证并获取各种模型质量指标和图表。某些指标和图表将显示在静态 R 输出中,而其他指标和图表将显示在交互式 I 输出中。

    • 重数:选择要将数据分成的重数。重数越大,模型估计质量越高,重数越少,工具运行速度越快。

    • 试验次数:选择重复交叉验证过程的次数。每次试验所选的重数不同,并且总体结果取所有试验的平均值。重数越大,模型估计质量越高,重数越少,工具运行速度越快。

    • 设置种子:选择此选项可确保交叉验证的再现性并选择用于将记录分配给重的种子值。每次运行工作流时选择相同的种子可确保每次同一重中都有相同的记录。该值必须是正整数。

自定义图表

  • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi);2x(192 dpi);或 3x(288 dpi)。

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

  • 显示图表:选择此选项可在使用正则化回归时显示图表。

查看输出

将“浏览”工具连接到每个输出锚点以查看结果。

  • O(输出):在“结果”窗口中显示模型名称和对象大小。

  • R(报告):显示模型摘要报告,其中包括摘要和图表。

  • I(交互式):显示交互式可视化的仪表板,以支持进一步的数据发现和模型探索。

用于数据库内处理的工具配置

线性回归工具支持 Oracle、Microsoft SQL Server 2016 和 Teradata 数据库内处理。有关数据库内支持和工具的详细信息,请访问数据库内概述

当将线性回归工具与另一个数据库内工具一起放置在画布上时,该工具会自动更改为数据库内版本。要更改该工具的版本,请右键单击该工具,指向“选择工具版本”,然后单击该工具的其他版本。有关预测型数据库内工具支持的详细信息,请访问预测分析

连接输入

连接数据库内数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。

如果输入来自 SQL Server 或 Teradata 数据库内数据流,则将使用 Microsoft 机器学习服务器 rxLinMod 函数(来自 RevoScaleR 包)进行模型估计。只要本地计算机和服务器都配置了 Microsoft 机器学习服务器,即可在数据库服务器上进行处理,从而显著提高性能。

如果输入来自 Oracle 数据库内数据流,则将使用 Oracle R Enterprise ore.lm 函数(来自 OREmodels 包)进行模型估计。只要本地计算机和服务器都配置了 Oracle R Enterprise,即可在数据库服务器上进行处理,从而显著提高性能。

对于 Oracle 数据库中的数据库内工作流,只有在直接从选择了单个完整表的库内连接工具进行连接,或者在线性回归工具之前立即使用库内写入数据工具将估计数据表保存至数据库时,才会出现生成的下游模型对象的完整功能。Oracle R Enterprise 利用估计数据表提供完整的模型对象功能,例如计算预测区间。

配置

  • 模型名称:需要为每个模型命名,以便以后可以对其进行识别。您可以选择提供名称,也可以选择自动生成名称。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。

  • 选择目标变量:从要预测的数据流中选择字段。

  • 选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测值,并可能导致运行时异常。

  • 省略模型常量:如果要省略模型中的常量,请选中此项。当有明确的理由时,则应当这样做。

  • 使用样本权重进行模型估计:选中此复选框,然后从数据流中选择权重字段以估计使用样本权重的模型。如果某字段既用作预测变量,又用作加权变量,则加权变量将显示在模型调用的输出中,并以字符串“right_”为前缀。

  • Oracle 特定选项:此选项允许配置仅与 Oracle 平台相关的附加选项。

    • 将模型保存到数据库中:使估计的模型对象保存在数据库中,并建议这样做,以便模型对象和估计表一起存放在 Oracle 数据库的集中位置。

  • Teradata 特定配置:Microsoft 机器学习服务器需要有关要使用的特定 Teradata 平台的其他配置信息,特别是 Teradata 服务器上指向 R 的二进制可执行文件的路径,以及可以写入由 Microsoft 机器学习服务器使用的临时文件的位置。此信息需要由本地 Teradata 管理员提供。

查看输出

将“浏览”工具连接到每个输出锚点以查看结果。

  • O(输出):在“结果”窗口中显示模型名称和对象大小。

  • R(报告):显示模型摘要报告,其中包括摘要和图表。