Skip to main content

Regression tool icon 回归工具

使用作为机器学习管道的一部分的回归工具来识别趋势。此工具提供了几种可用于训练模型的算法。您还可以通过此工具提供的多种参数调整模型。

要求 Alteryx Intelligence Suite

此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用

配置工具

本章节包含有关如何配置回归工具的信息。

选择算法

选择要使用的算法。您可以选择 线性回归 决策树 随机森林

配置参数

配置参数。每个算法都有特定的参数。每个算法也同时具有常规参数和高级参数。常规参数是创建精确模型不可或缺的一部分,即使对于初学者也是如此。高级参数可能会提高准确性,但用户需要对高级参数有深入的了解。

参考各个算法的详情表以查看参数具体执行什么操作:

名称

描述

选项

默认

fit_intercept

确定是否希望算法计算线性回归模型的截距。它也被称为“常数”,截距是 x 等于 0 时 y 的预期平均值。

  • true

  • false

true

normalize

确定是否希望算法标准化目标。标准化调整您的目标以将目标与其他数据进行统一比较,帮助您判断数据之间存在的联系。

  • true

  • false

true

名称

描述

选项

默认

criterion

使用 criterion 参数来选择一种方式测量决策树算法将数据拆分成不同节点的效果。

  • mse

  • friedman_mse

  • 平均绝对误差

mse

max_depth

max_depth 是一棵树从根到叶的最长路径。深度更大的树会产生更多的分裂,并能获取更多有关数据的信息。

  • none :节点将一直扩展直到所有叶节点都是纯节点(即完全由属于一个类的数据组成),或者直到所有叶节点包含的样本少于 min_samples_split 参数指定的数量。

  • int :限制分裂的扩展。

none

max_features

max_features 设置决策树在寻找最佳首次分裂时考虑的最大特征数。

  • auto :评估与数据集特征总数一样多的特征。

  • none :评估与数据集特征总数一样多的特征。

  • sqrt(平方根) :评估与数据集的特征总数的平方根一样多的特征。

  • log2 : 评估与特征总数的以 2 为底的对数一样多的特征。

  • int :评估与用户指定的每次分裂数目一样多的特征。

  • float :评估与用户指定的特征总数比例一样多的特征。

自动

max_leaf_nodes

max_leaf_nodes 是算法可生成叶节点总数的最大值。它以最佳优先的方式将节点增长到最大数量。算法根据节点的不纯度减少能力确定最佳节点。使用 criterion 参数指定您希望如何测量不纯度的减少。

任何整数或 none

min_impurity_decrease

min_impurity_decrease 设置决策树分裂新节点时所需的不纯度减少量的最小阈值。因此,当不纯度减少量等于或大于 min_impurity_decrease 时,则分裂发生。使用 criterion 参数指定您希望如何测量不纯度的减少。

任何浮点数。

0.0

min_samples_split

min_samples_split 设置决策树拆分为新节点所需样本的最小阈值。算法至少可考虑一个样本,最多可考虑所有样本。

任何整数或分数。

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf 是决策树分裂为新节点时所需的权重的最小阈值。此阈值等于所有样本权重和占比的最小值。默认情况下,决策树算法假定权重相等。

任何浮点数。

0.0

presort

使用此参数对数据进行预先排序,这可能有助于算法更快地找到最佳分裂。

  • true

  • false

false

seed

random_state 指定用于生成伪随机序列的起始编号。如果选择 none ,随机数生成器将选择一个起始数字。

  • int

int :10

splitter

splitter 指定了节点分裂的策略。它包括最佳首次分裂和最佳随机随机分裂选项。算法根据节点的不纯度减少能力确定最佳节点。

  • best : 此选项需要更高的计算能力,可能存在过度拟合风险。

  • random :如果某些关联的信号较弱,random 选项可能会找到穿过树的路径。

best

名称

描述

选项

默认

bootstrap

Bootstrapping 是 bagging 的基础,是用于对训练数据集进行抽样的方法。此方法会迭代创建数据集的子样本以模拟新的、未曾接触的数据,利用这些数据可提高模型的泛化能力。

  • true

  • false

true

criterion

使用 criterion 参数来选择一种方式以测量随机森林算法将数据拆分成不同节点的效果,这些节点包括随机森林中的许多不同的树。

  • mse

  • friedman_mse

  • 平均绝对误差

mse

max_depth

max_depth 是森林中每棵树从根到叶的最长路径。深度越大的树会产生更多的分支,并能获取更多有关数据的信息。

  • none :节点将一直扩展直到所有叶节点都是纯节点(即完全由属于一个类的数据组成),或者直到所有叶节点包含的样本少于 min_samples_split 参数指定的数量。

  • int :限制分裂的扩展。

none

max_features

max_features 设置森林中各个决策树在寻找最佳首次分裂时考虑的最大特征数。

  • auto :评估与数据集特征总数一样多的特征。

  • none :评估与数据集特征总数一样多的特征。

  • sqrt(平方根) :评估与数据集的特征总数的平方根一样多的特征。

  • log2 : 评估与特征总数的以 2 为底的对数一样多的特征。

  • int :评估与用户指定的每次分裂数目一样多的特征。

  • float :评估与用户指定的特征总数比例一样多的特征。

自动

min_impurity_decrease

min_impurity_decrease 设置将决策树拆分为新节点所需的不纯度减少量的最小阈值。因此,当不纯度减少量等于或大于 min_impurity_decrease 时,则分裂发生。使用 criterion 参数指定您希望如何测量不纯度的减少。

任何浮点数。

0.0

min_samples_split

min_samples_split 设置将决策树(随机森林中)拆分为新节点所需样本的最小阈值。算法至少可考虑一个样本,最多可考虑所有样本。

任何整数或分数。

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf 即将决策树拆分为新节点所需权重的最小阈值。此阈值等于所有样本权重和占比的最小值。默认情况下,决策树算法假定权重相等。

任何浮点数。

0.0

n_estimators

n_estimators 是您想构建随机森林的树的数量。

任何整数。

100

seed

random_state 指定用于生成伪随机序列的起始编号。如果选择 none ,随机数生成器将选择一个起始数字。

  • int :为随机数字生成器选择一个整数。

  • none :无可重复性。

int :10