Skip to main content

Support Vector Machine Tool Icon “支持向量机”工具

单个工具示例

“支持向量机”具有“单个工具示例”。转至示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

支持向量机 (SVM) 或支持向量网络 (SVN) 是一组广受欢迎的监督学习算法,最初用于分类(分类目标)问题,后来扩展到回归(数字目标)问题。支持向量机之所以广受欢迎是因为它们可节约内存,能够处理大量预测变量(尽管在预测因子数量超过估计记录数量的情况下,预测变量可能会提供较差的拟合),并且由于它们支持大量不同的“核”函数,所以用途很广泛。

该方法背后的基本思路是,找出线(1 个预测因子)、平面(2 个预测因子)或超平面(3 个或更多预测因子)的最佳方程,从而根据距离度量最大限度地将行组划分到不同的类别,具体取决于目标变量。核函数提供距离的度量(导致记录被置于相同或不同的组中),需要采用预测变量的函数来定义距离度量。

可以找到一个简短的视频,说明了这是如何工作的

您可以 在这里找到一个非常平易近人的话题讨论。组的分割程度称为最大间隔,取决于所使用的核函数。最后,组的分割可能并不完美,但也可以指定成本参数(即将估计记录放入“错误”组的成本)。

此工具使用 e1071 R 软件包。

此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 工具和 R 工具使用的软件包。请访问下载和使用预测工具

连接输入

连接 Alteryx 数据流,其中包括所感兴趣的目标字段以及 1 个或多个可能的预测字段。

配置工具

所需参数

  • 模型名称:每个模型都需要一个名称,以便以后可以识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (.) 和下划线 (_)。不允许使用其它特殊字符,R 区分大小写。

  • 选择目标字段:从要预测的数据流中选择字段。

  • 选择预测字段:从数据流中选择您认为 "导致 "目标变量值变化的字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。

  • 根据要预测的目标变量选择分类回归方法。一般而言,如果选择的目标变量是字符串或布尔类型,则可能是分类问题。如果该变量是数字类型,则可能是回归问题。

    • 分类

      • 基本模型概要:R 中的函数调用、目标、预测因子和相关参数。

      • 模型性能:

        • 混淆矩阵

        • 支持向量机分类图

        • 此报告介绍了如何诠释每个性能的评估标准。

    • 分类选项:

      • C-classification:优化决策面,同时允许一定量的误差。

      • nu-classification:与 C-classification 相似,但允许用户通过选择 nu 的值来限制误差量。

    • 回归

      • 基本模型概要:R 中的函数调用、目标、预测因子和相关参数。

      • 模型性能:

        • 均方根误差

        • R 平方

        • 平均绝对误差

        • 中值绝对误差

        • 残差图

        • 残差分布

        • 此报告介绍了如何诠释每个性能的评估标准。

    • 回归选项:

      • epsilon 回归

      • nu 回归:与 epsilon 回归相似,但允许用户通过选择 nu 的值来限制误差量。

自定义模型(可选)

在模型自定义部分,您可以选择核函数类型以及每个核函数的相关参数。选择指定模型参数可自定义模型。

用户提供参数:直接设置所需参数。

核函数类型:确定用于衡量组之间的分割的指标

  • 线性:当类和预测因子之间的关系是一个简单的线、平面或超平面时很有用。

    • 成本:jiang记录错误分组的相关成本。较低的成本值允许在形成记录组时有一定程度的误差,以避免过度拟合。

  • 多项式:使用预测变量的多项式函数度量距离。

    • 成本:jiang记录错误分组的相关成本。较低的成本值允许在形成记录组时有一定程度的误差,以避免过度拟合。

    • 次数:多项式核函数的次数。增加多项式的次数可以使组之间的间隔更灵活,从而减少估计样本的误差。但代价是模型与估计样本过度拟合。

    • gamma:多项式核函数中内积项的系数。

    • coef0:多项式公式中的常数项。

  • 径向(默认):适用于非线性可分离的数据。

    • 成本:允许分类中出现一定程度的误差,以避免过度拟合。

    • gamma:径向基函数核中幂项的系数。Gamma 值越大,特征空间越大,训练集的误差就越小;但这也可能导致不良过拟合。

  • Sigmoid:主要用作神经网络的代理。

    • gamma:定义对训练示例的影响。

    • coef0:sigmoid 核函数中的常量项。

机器调整参数:提供一系列参数,并通过搜索可能值的网格以计算方式找出最佳参数。这样做计算成本更高,因此需要更长时间,因为执行了 10 倍交叉验证以在多个参数值上测试模型。但这可能会产生更适合数据的模型。

在这种情况下,需要选择的参数与“用户提供参数”部分的参数类似,但也有以下不同:

  • 候选项数量:用户希望测试的参数值数量(默认值为 5)

  • 核函数类型(网格搜索):请参阅“用户提供参数”部分。用户指定某些参数的最小值和最大值。模型会生成“候选项数量”中设置的一定数量的候选项,并使用 10 倍交叉验证找出最佳候选项。

图表选项

  • 图表大小:设定生成的图表的宽度和高度(使用英寸或厘米)。

  • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

  • 基准字体大小:宏指令生成的图中使用的基准字体点数

查看输出

  • O 锚点:“O”输出由具有模型名称的序列化模型表组成。评分工具和测试数据集可以在获得支持向量机工具的输出后使用。

  • R 锚点:“R”输出由“支持向量机”工具生成的报告片段组成。分类和回归的报告不同,因为它们的性能评估方法不同。