主要组件工具可以减少数据库中的维度(数字字段的数量)。它通过将原始字段集转换为占据数据中大部分方差(即信息)的较小集合来达到此目的。新字段称为因子或主因子。
主因子按顺序提取,第一主因子占数据中最大的方差。直观地说,第一主因子是一个向量,指向数据最“分散”的方向。第二主因子的设置与此类似,但附加约束是它必须与第一主因子不相关。之后的每个主因子捕获的数据变化百分比越来越低,并且与之前提取的主因子不相关。数据中有多少个数字字段,就可以有多少个主因子。但是,通常可以使用前几个主因子(而不是原始数字字段的完整集)来捕获数据中的方差。主因子由原始数字字段的加权线性组合组成。它们可以共同用于形成一个新的坐标系,其中每个维度都与其他维度不相关。
在预测模型中,可以使用主因子来代替原始字段,从而避免使用高度相关的变量时可能出现的问题,但代价是这会使模型解释更加困难。此外,该方法还可用于确定哪些字段组可能彼此高度相关,并帮助指导在预测模型中忽略哪些字段的决策。最后,将大量字段“折叠”为少量主因子的功能往往有利于直观地呈现数据中的关系。
此工具使用 R 工具。转至选项 > 下载预测工具,并登录到 Alteryx 下载和许可门户以安装 R 和 R 工具使用的包。请参考下载和使用预测工具。
使用配置选项卡为主因子和相关双标图设置控件。
字段(选择两个或更多):选择要用于主因子分析的数字字段。
缩放每个字段以得到单位方差?:选择此选项可对数据进行标准化,并使用自相关矩阵而非自协方差矩阵来作为分析基础。
要包含在双标图中的主因子最大数量:双标图是直观呈现主因子解决方案的一种方法,每次两个因子。此选项可设置要在分析中使用的主因子上限。例如,如果将此参数设置为“3”,则双标图会将第一和第二、第一和第三、第二和第三主因子包含在三个独立的图中。
将主因子附加到数据流:选择以输出原始数据以及附加主因子的其他字段。所添加的字段标记为 PC1、PC2,依此类推。设置要附加的主因子数。
使用图表选项选项卡为图表输出设置控件。
图表大小:选择英寸或厘米来丈量图表大小。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x (96 dpi);2x (192 dpi);或 3x (288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
基本字体大小(点):选择图表中字体的大小。
将“浏览”工具连接到每个输出锚点以查看结果。
O 锚点:包含附加了主因子的输入数据流。
R 锚点:包含由主要组件工具生成的报告片段:统计摘要、基本图和双标图。