交叉验证工具
使用交叉验证过程比较一个或多个由 Alteryx 生成的预测模型的性能。它支持所有分类和回归模型。
此工具使用 R 工具。转到选项 下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。
重要
此工具不会随 Alteryx Designer 或 R 工具自动安装。要使用此工具,请从 Alteryx 社区下载。
预测建模人员通常认为交叉验证比其他模型评估方法更可取,因为它不需要使用单独的测试集,并且可生成更可靠的模型质量预估结果。
对于所有分类模型,该工具提供总体准确性、按类划分的准确性和一组混淆矩阵(每个模型一个)。此外,该工具还报告二元分类模型的 F1 分数和性能诊断图(提升曲线、增益图、精度与召回曲线和 ROC 曲线)的集合。对于回归模型,该工具通常提供预测值和实际值、均方根误差 (RMSE)、平均绝对误差 (MAE)、平均百分比误差 (MPE) 和每个模型预测的平均绝对百分比误差 (MAPE) 之间的相关性。但是,当至少一个目标值接近 0 时,MPE 和 MAPE 未定义。在这种情况下,MPE 将替换为实际值总和除以误差总和,而绝对误差总和除以实际值的总和(即加权绝对百分比误差)将替换 MAPE。此外,该工具始终提供回归情况下的实际值与预测值的图解。
连接输入
交叉验证工具需要两种输入:
M 锚点:单个 Alteryx 生成的预测模型或者两个或多个此类模型的联组。这些模型都应该使用相同的数据集生成。
D 锚点:用于生成上述模型的数据集。
配置工具
试验数:输入希望重复交叉验证过程的次数。选择较少的试验数可加快该工具的速度,但数量越大,您对模型质量的预估就越可靠。
折叠数:输入要将数据拆分为的子集数。折叠数也存在与试验数类似的权衡。
选择模型的类型。
分类:这些模型预测类别,如是/否。
回归:这些模型预测数字数量,如销售总额。
是否应使用分层交叉验证?:分层交叉验证是一种特殊类型的交叉验证,分层后每层数据与原始较大数据集具有相同概率分布。例如,在 80% 的目标值为“否”和 20% 为“是”的数据集中,分层后数据保持大约 80:20 的否|是比例。当目标变量不平衡时,通常建议使用分层交叉验证。
正类的名称:(可选)此配置选项仅与二进制(双类)分类相关。为二元分类报告的一些度量值(如 F1 分数)要求区分正类(如“是”)和负类(如“否”)。但是,此配置选项不是必需的。如果在使用具有二元分类模型的工具时将其留空,则该工具将选择其中一个类作为正类。
种子值:要创建可重现的结果,您可以选择随机数生成器使用的种子,该生成器会指示哪些记录被分类到哪些折叠中。更改种子将会改变折叠的构成。
查看输出
D 锚点:此输出提供实际数据值及其预测。
F 锚点:此输出报告各种模型拟合度量值,具体取决于模型类型。
R 锚点:包含每个试验的平均拟合度量值的摘要报告,以及每个模型显示单个曲线的图形。