样条模型工具
单个工具示例
“森林模型”有一个“单个工具示例”。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
样条模型工具提供了Friedman的多变量自适应回归样条曲线(或MARS)算法。*这种方法是一种现代统计学习模型,它:( 1)自行确定哪个字段子集最适合预测作为目标字段;( 2)能够捕获高度非线性的关系和字段之间的交互作用, 并且可以以对用户透明的方式自动地址各种回归和分类问题(用户只需指定一个目标字段和一组预测器字段即可,但高级用户可以对该工具进行广泛的微调)。
该工具适用于各种问题,如分类,计数数据和连续目标回归问题。该方法使用两步方法来开发模型。在第一步中(称为向前传递,类似于决策树工具中使用的递归分区算法),确定了在预测目标时最重要的变量,并在变量中找到了适当的"分割点"(称为"节点")。但是,与决策树不同,相邻节点之间的线(称为术语)是拟合,而不是像决策树中那样使用离散跳转。这会为每个变量构建分段线性函数,该函数可以近似目标变量和预测变量之间的任何关系。第二步(称为向后或修剪通道)删除变量中的一些节(在其余项中拉长线段) 为了最大限度地减少模型过度拟合估计样本并捕获估计样本噪声而不是底层信号的可能性。
此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 工具和 R 工具使用的软件包。请访问下载和使用预测工具。
输入
一种 Alteryx 数据流,包括感兴趣的目标字段以及一个或多个可能的预测字段。
配置工具
使用基本选项卡为“下载”工具设置必须的控制。
模型名称:需要为每个模型命名,以便以后可以对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。
选择目标字段:从要预测的数据流中选择字段。
选择预测字段:从数据流中选择您认为 "导致 "目标变量值变化的字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。
包括效应图解?:如果选中,将生成效应图,以图形方式显示预测变量与其他预测变量字段固定水平(数值预测变量的中位数,因子的第一个水平)的目标之间的关系。选择是否只显示对目标具有主效应的字段,或只显示字段之间的双向交互效应(使用透视图),还是同时显示主效应和双向交互效应。
使用 模型自定义(可选) 选项卡对模型进行更具体的调整。
指定目标类型和GLM系列:支持五种类型的目标字段:
连续目标(例如,任何给定唯一值在总实例中所占百分比相对较小的数字目标)。
Gamma分布目标(响应值百分比较高,但响应值相对较高的百分比较小的严格正数值目标)
计数(整数)目标:目标是一个数字,其大多数唯一值都占实例总数的大部分,例如,某人一年中访问医生办公室的次数。
二进制分类目标(例如,"是/否"品种的目标字段)。
多项分类目标:目标为分类字段,具有有限数量的分立结果,如 A、B 或 C 类。每种类型的目标射野都可以有一个或多个可能的关联分布函数(与算法尝试最小化的测量相关)。
连续目标可以没有显式分布或高斯分布(换言之,正态)。
在Gamma分布目标的情况下,选择是要使用的链接函数(分布均值和线性预测变量之间的关系)。
计数(整数)目标根据泊松分布最小化损失函数,并使用log (首选)或identity link函数。
二进制分类目标可以使用logit (也用于经典逻辑回归中),probit或互补对数-对数链接函数。
以非标准方式处理多项分类应答。具体来说,不是估计一个真正的多项模型,而是估计一组二进制模型(使用逻辑链接函数)。例如,如果可能的响应是"A","B"或"C",那么估计的是一个模型:针对任何其他选择的"A",针对任何其他选择的"B"和针对任何其他选择的"C"。
缩放目标变量: 如果目标变量是一个连续变量,并且选择了此选项,那么它将接受z评分(均值为零,标准差为1 )转换,以帮助在算法的正向传递(第一阶段)中保持数值稳定性。
最大节点数或自动确定(自动):此选项控制算法向前传递(第一阶段)的预测变量字段中可能的节点数。如果选择"自动",则会根据预测变量字段的数量计算节点数。前进通道中的实际节数通常会小于允许的最大值。
交互深度:预测因子之间的交互程度。
如果有2个预测变量字段彼此具有双向交互作用,则一个预测变量对目标的影响取决于第二个预测变量的水平。
在三向交互作用的情况下,预测变量字段对目标的影响将取决于其他两个预测变量字段的值。
最多可以指定五向交互作用(交互深度为5)。此参数的默认值设置为1 (预测变量字段之间无交互作用的隐式假设)。增加交互深度可以大大增加模型运行时间。
每项或节罚:要优化的函数包含一个罚分,以降低最终模型与估计样本数据匹配的可能性。对于仅主效应模型,默认值为2,如果允许双向或更高的交互作用,则默认值为3。如果值为-1,则不会对应用的节或术语产生罚金,而值0则仅对术语应用默认罚金。
R-Squared的最小改进需要增加一个额外的结:该项的值越高,R-Squared的改进需要为模型增加一个结。
节之间的最小距离:如果选择0,则根据公式计算允许的最小距离,值1允许预测变量的任何值都是节 (只有在数据噪声极小的情况下才有效),否则需要提供介于0和1之间的数值,以预测变量范围的百分比形式给出距离。
新变量罚分:附加到目标函数的附加罚分项,用于将新变量添加到模型中。默认值为0 (无),此值的范围为0到0.5。与每个结或期限的罚金一样,其目的是控制过度贴合
前向传递中每个步骤考虑的最大父项数:此项控制在前向传递中创建的项数,这可以加快执行速度。特殊值0对术语没有任何限制,而大于0的数字则指定最大术语数。默认值为20个项,其常用值为20,10和5。
快速火星老化系数:参见Friedman (1993年)第3.1节,了解这个参数的解释。***
执行交叉验证分析:此选项允许进行交叉验证评估,以确定相对于算法使用的广义交叉验证方法是否进行了足够的修剪。如果选择此选项,则用户可以指定单独的交叉验证运行的数量,每个交叉验证运行中的折页数,是否对交叉验证样本进行分层以具有分类目标的类似响应组合(例如, 二进制分类变量对应的"是"和"否"响应数),以及为创建样本而生成的随机数的随机种子值。
修剪方法:选项包括"反向消除","无","彻底搜索","正向选择"和"顺序替换"。
向后消除(默认值)从向前传递中发现的所有节点和项开始,然后首先删除预测性最低的项(对受影响的剩余项进行适当调整),然后比较相对于完整模型对广义交叉验证度量的影响。如果未通过删除术语来改进广义交叉验证度量,则返回在前向传递后创建的模型。如果广义交叉验证度量有改进,则从模型中删除此项,并对其余项重复此过程。如果在任何时候删除一个术语都不能改善与上次迭代中创建的模型相关的广义交叉验证度量,则该过程将终止。
如果选择"无",则在最终型号中使用前传中找到的所有术语。
在详尽的搜索中,将检查在向前搜索步骤中找到的所有术语组合,但计算成本非常高。
在前向删除中,除截距外的所有项都将被删除,然后确定在前向传递中找到的最佳项并将其包含在模型中(假设它改善了与仅截距模型相关的广义交叉验证度量)。此过程将持续进行,直到无法添加任何可改进广义交叉验证度量的附加项。
在顺序替换中,具有给定数量的术语的解决方案将用前向通道中的所有其他可能的剩余术语替换一个术语,这些术语尚未包含在修剪通道中的术语集中。如果发现一个新术语可以改进与原始术语相对的广义交叉验证度量,则原始术语将替换为新术语。
修剪模型中的最大项数: 如果选择0 (默认值),则在最终模型中应用在修剪过程中使用的其他标准之后保留的所有术语,否则,在最终模型中仅保留选定数字之前最重要的术语。
使用“图表选项”选项卡设置图表输出控件(可选)。
图大小:选择英寸或厘米来丈量图表大小。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
基本字体大小(点):选择图表中字体的大小。
查看输出
将浏览工具连接到每个输出锚点以查看结果。
O 锚点:包含序列化模型及其模型名称的表格。
R锚点:由样条模型工具生成的报表片段组成:基本模型摘要,可变重要性图(指示不同预测变量字段的相对重要性),基本模型诊断图和(可选)效应图。
https://en.wikipedia.org/wiki/Confusion_matrix
**Freidman, Jerome H.,"Multivarate Adaptive回归 Splines ",Stanford University, August 1990
***Freidman, Jerome H.,"Fast Mars",Technical Report No.102,斯坦福大学统计系,1993年5月