“支持向量机”工具
单个工具示例
“支持向量机”具有“单个工具示例”。转至示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
支持向量机 (SVM) 或支持向量网络 (SVN) 是一组广受欢迎的监督学习算法,最初用于分类(分类目标)问题,后来扩展到回归(数字目标)问题。支持向量机之所以广受欢迎是因为它们可节约内存,能够处理大量预测变量(尽管在预测因子数量超过估计记录数量的情况下,预测变量可能会提供较差的拟合),并且由于它们支持大量不同的“核”函数,所以用途很广泛。
该方法背后的基本思路是,找出线(1 个预测因子)、平面(2 个预测因子)或超平面(3 个或更多预测因子)的最佳方程,从而根据距离度量最大限度地将行组划分到不同的类别,具体取决于目标变量。核函数提供距离的度量(导致记录被置于相同或不同的组中),需要采用预测变量的函数来定义距离度量。
可以找到一个简短的视频,说明了这是如何工作的
您可以 在这里找到一个非常平易近人的话题讨论。组的分割程度称为最大间隔,取决于所使用的核函数。最后,组的分割可能并不完美,但也可以指定成本参数(即将估计记录放入“错误”组的成本)。
此工具使用 e1071 R 软件包。
此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 工具和 R 工具使用的软件包。请访问下载和使用预测工具。
连接输入
连接 Alteryx 数据流,其中包括所感兴趣的目标字段以及 1 个或多个可能的预测字段。
配置工具
所需参数
模型名称:每个模型都需要一个名称,以便以后可以识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (.) 和下划线 (_)。不允许使用其它特殊字符,R 区分大小写。
选择目标字段:从要预测的数据流中选择字段。
选择预测字段:从数据流中选择您认为 "导致 "目标变量值变化的字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。
根据要预测的目标变量选择分类或回归方法。一般而言,如果选择的目标变量是字符串或布尔类型,则可能是分类问题。如果该变量是数字类型,则可能是回归问题。
分类:
基本模型概要:R 中的函数调用、目标、预测因子和相关参数。
模型性能:
支持向量机分类图
此报告介绍了如何诠释每个性能的评估标准。
分类选项:
C-classification:优化决策面,同时允许一定量的误差。
nu-classification:与 C-classification 相似,但允许用户通过选择 nu 的值来限制误差量。
回归:
基本模型概要:R 中的函数调用、目标、预测因子和相关参数。
模型性能:
均方根误差
R 平方
平均绝对误差
中值绝对误差
残差图
残差分布
此报告介绍了如何诠释每个性能的评估标准。
回归选项:
epsilon 回归
nu 回归:与 epsilon 回归相似,但允许用户通过选择 nu 的值来限制误差量。
自定义模型(可选)
在模型自定义部分,您可以选择核函数类型以及每个核函数的相关参数。选择指定模型参数可自定义模型。
用户提供参数:直接设置所需参数。
核函数类型:确定用于衡量组之间的分割的指标
线性:当类和预测因子之间的关系是一个简单的线、平面或超平面时很有用。
成本:jiang记录错误分组的相关成本。较低的成本值允许在形成记录组时有一定程度的误差,以避免过度拟合。
多项式:使用预测变量的多项式函数度量距离。
成本:jiang记录错误分组的相关成本。较低的成本值允许在形成记录组时有一定程度的误差,以避免过度拟合。
次数:多项式核函数的次数。增加多项式的次数可以使组之间的间隔更灵活,从而减少估计样本的误差。但代价是模型与估计样本过度拟合。
gamma:多项式核函数中内积项的系数。
coef0:多项式公式中的常数项。
径向(默认):适用于非线性可分离的数据。
成本:允许分类中出现一定程度的误差,以避免过度拟合。
gamma:径向基函数核中幂项的系数。Gamma 值越大,特征空间越大,训练集的误差就越小;但这也可能导致不良过拟合。
Sigmoid:主要用作神经网络的代理。
gamma:定义对训练示例的影响。
coef0:sigmoid 核函数中的常量项。
机器调整参数:提供一系列参数,并通过搜索可能值的网格以计算方式找出最佳参数。这样做计算成本更高,因此需要更长时间,因为执行了 10 倍交叉验证以在多个参数值上测试模型。但这可能会产生更适合数据的模型。
在这种情况下,需要选择的参数与“用户提供参数”部分的参数类似,但也有以下不同:
候选项数量:用户希望测试的参数值数量(默认值为 5)
核函数类型(网格搜索):请参阅“用户提供参数”部分。用户指定某些参数的最小值和最大值。模型会生成“候选项数量”中设置的一定数量的候选项,并使用 10 倍交叉验证找出最佳候选项。
图表选项
图表大小:设定生成的图表的宽度和高度(使用英寸或厘米)。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
基准字体大小:宏指令生成的图中使用的基准字体点数
查看输出
O 锚点:“O”输出由具有模型名称的序列化模型表组成。评分工具和测试数据集可以在获得支持向量机工具的输出后使用。
R 锚点:“R”输出由“支持向量机”工具生成的报告片段组成。分类和回归的报告不同,因为它们的性能评估方法不同。