线性回归工具
单个工具示例
计数回归具有一个“单个工具示例”。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
“线性回归”工具创建一个简单模型来估计值,或者根据线性关系评估变量之间的关系。
The 2 main types of linear regression are non-regularized and regularized:
Non-regularized linear regression produces linear models that minimize the sum of squared errors between the actual and predicted values of the training data target variable.
Regularized linear regression balances the same minimization of sum of squared errors with a penalty term on the size of the coefficients and tends to produce simpler models that are less prone to overfitting.
此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 工具和 R 工具使用的软件包。请访问下载和使用预测工具。
R Packages Used by Linear Regression
R Package | 类型 | Package Description |
---|---|---|
AlteryxPredictive | 自定义 | This package provides custom functions and calls CRAN and custom R packages. |
AlteryxRDataX | 自定义 | This package provides connectivity between Alteryx and R as well as a number of functions to facilitate the interaction between Alteryx and R. |
AlteryxRviz | 自定义 | This package has been deprecated. It provides functions that drive interactive visualizations for the predictive tools in Alteryx (Time Series, Network Analysis). |
flightdeck | 自定义 | This package makes it easy to create interactive dashboards for reporting outputs of predictive models. |
常规处理下的工具配置
连接输入
连接 Alteryx 数据流或 XDF 元数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。
注意
XDF is MRC/MMLS format.
如果输入数据来自 Alteryx 数据流,则使用开源 R randomForest 函数(来自 randomForest 包)进行模型估计。
如果输入数据来自 XDF 输出工具或 XDF 输入工具,则使用 RevoScaleR rxDForest 函数进行模型估计。使用基于 Revo ScaleR 的函数的优势在于,它允许分析更大(超过内存)的数据集,但代价是创建 XDF 文件需要额外开销,无法创建开源 R 函数提供的某些模型诊断输出,并且只能生成泊松回归模型。
配置工具
模型名称:为模型输入一个名称,以在其它工具中引用该模型时对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (.) 和下划线 (_)。不允许使用其它特殊字符,R 区分大小写。
选择目标变量:选择要预测的数据。目标变量也称为响应变量或因变量。
选择预测变量:选择要用于影响目标变量值的数据。预测变量也称为功能或自变量。虽然可以选择任意数量的预测变量,但目标变量不应也是预测变量。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。
Select Customize to modify the Model, Cross-validation, and Plots settings.
Customize the Model
Omit a model constant: Select to omit a constant and have the best fit line pass through the origin.
Use a weight variable for weighted least squares: Select a variable to determine the amount of importance to place on each record when creating a least-squares model.
Use regularized regression: Select to balance the same minimization of sum of squared errors with a penalty term on the size of the coefficients and produce a simpler model.
alpha值应该介于0(岭回归)和1(lasso)之间,以衡量对系数的加强程度。
Standardize predictor variables: Select to make all variables the same size based on the algorithm used.
Use cross-validation to determine model parameters: Select to perform cross-validation and obtain various model parameters
折叠数:输入要将数据拆分为的子集数。重数越大,模型估计质量越高,重数越少,工具运行速度越快。
What type of model: Select the type of model to determine the coefficients.
更简单的模型
样本内标准错误较低的模型
Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. 时间戳必须是正整数。
Customize the Cross-Validation
Use cross-validation to determine estimates of model quality: Select to perform cross-validation and obtain various model quality metrics and graphs. Some metrics and graphs will be displayed in the static R output, and others will be displayed in the interactive I output.
折叠数:输入要将数据拆分为的子集数。重数越大,模型估计质量越高,重数越少,工具运行速度越快。
Number of trials: Select the number of times to repeat the cross-validation procedure. The folds are selected differently in each trial, and the overall results are averaged across all the trials. 重数越大,模型估计质量越高,重数越少,工具运行速度越快。
Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. 时间戳必须是正整数。
Customize the Plots
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
Display graphs: Select to display graphs when using regularized regression.
查看输出
将浏览工具连接到每个输出锚点以查看结果。
O 锚点:在“结果”窗口中显示模型名称和对象大小。
R 锚点:显示模型摘要报告,其中包括摘要和图。
I (Interactive): Displays a dashboard of interactive visualizations to support further data-discovery and model exploration.
用于数据库内处理的工具配置
The Linear Regression tool supports Oracle, Microsoft SQL Server 2016, and Teradata in-database processing. 有关数据库内支持和工具的详细信息,请访问数据库内概述。
当将森林模型工具与另一个数据库内工具一起放置在画布上时,该工具会自动更改为数据库内版本。要更改该工具的版本,请右键单击该工具,指向“选择工具版本”,然后单击该工具的其他版本。有关预测型数据库内工具支持的详细信息,请访问预测分析。
连接输入
连接数据库内数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。
如果输入来自 SQL Server 或 Teradata 数据库内数据流,则将使用 Microsoft 机器学习服务器 rxDForest 函数(来自 RevoScaleR 包)进行模型估计。只要本地计算机和服务器都配置了 Microsoft 机器学习服务器,即可在数据库服务器上进行处理,从而显著提高性能。
如果输入来自 SQL Server 或 Teradata 数据库内数据流,则将使用 Microsoft 机器学习服务器 rxDForest 函数(来自 RevoScaleR 包)进行模型估计。只要本地计算机和服务器都配置了 Microsoft 机器学习服务器,即可在数据库服务器上进行处理,从而显著提高性能。
For an in-database workflow in an Oracle database, full functionality of the resulting model object downstream only occurs if the Linear Regression tool is connected directly from a Connect In-DB tool with a single full table selected, or if a Write Data In-DB tool is used immediately before the Linear Regression tool to save the estimation data table to the database. Oracle R Enterprise makes use of the estimation data table to provide full model object functionality, such as calculating prediction intervals.
配置
模型名称:需要为每个模型命名,以便以后可以对其进行识别。您可以选择提供名称,也可以选择自动生成名称。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。
选择目标变量:从要预测的数据流中选择字段。
选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。
Omit a model constant: Check this item if you want to omit a constant from the model. This should be done if there is an explicit reason for doing so.
使用采样权重进行模型估计:单击该复选框,然后从数据流中选择权重字段以估计使用采样权重的模型。如果某字段既用作预测变量,又用作加权变量,则加权变量将显示在模型调用的输出中,并以字符串“right_”为前缀。
Oracle specific options: This option allows for the configuration of additional options only relevant for the Oracle platform.
Save the model to the database: Causes the estimated model object to be saved in the database, and is recommended so that the model objects and estimation tables live together in a centralized location in the Oracle database.
Teradata specific configuration: Microsoft Machine Learning Server needs additional configuration information about the specific Teradata platform to be used – in particular, the paths on the Teradata server to R's binary executables, and the location where temporary files that are used by Microsoft Machine Learning Server can be written. This information will need to be provided by a local Teradata administrator.
查看输出
将浏览工具连接到每个输出锚点以查看结果。
O 锚点:在“结果”窗口中显示模型名称和对象大小。
R 锚点:显示模型摘要报告,其中包括摘要和图。