Skip to main content

Principal Components Tool Icon 主要组件工具

主要组件工具可以减少数据库中的维度(数字字段的数量)。它通过将原始字段集转换为占据数据中大部分方差(即信息)的较小集合来达到此目的。新字段称为因子或主因子。

主因子按顺序提取,第一主因子占数据中最大的方差。直观地说,第一主因子是一个向量,指向数据最“分散”的方向。第二主因子的设置与此类似,但附加约束是它必须与第一主因子不相关。之后的每个主因子捕获的数据变化百分比越来越低,并且与之前提取的主因子不相关。数据中有多少个数字字段,就可以有多少个主因子。但是,通常可以使用前几个主因子(而不是原始数字字段的完整集)来捕获数据中的方差。主因子由原始数字字段的加权线性组合组成。它们可以共同用于形成一个新的坐标系,其中每个维度都与其他维度不相关。

在预测模型中,可以使用主因子来代替原始字段,从而避免使用高度相关的变量时可能出现的问题,但代价是这会使模型解释更加困难。此外,该方法还可用于确定哪些字段组可能彼此高度相关,并帮助指导在预测模型中忽略哪些字段的决策。最后,将大量字段“折叠”为少量主因子的功能往往有利于直观地呈现数据中的关系。

此工具使用 R 工具。转至选项 > 下载预测工具,并登录到 Alteryx 下载和许可门户以安装 R 和 R 工具使用的包。请参考下载和使用预测工具

配置工具

配置选项卡

使用配置选项卡为主因子和相关双标图设置控件。

  • 字段(选择两个或更多):选择要用于主因子分析的数字字段。

  • 缩放每个字段以得到单位方差?:选择此选项可对数据进行标准化,并使用自相关矩阵而非自协方差矩阵来作为分析基础。

  • 要包含在双标图中的主因子最大数量:双标图是直观呈现主因子解决方案的一种方法,每次两个因子。此选项可设置要在分析中使用的主因子上限。例如,如果将此参数设置为“3”,则双标图会将第一和第二、第一和第三、第二和第三主因子包含在三个独立的图中。

  • 将主因子附加到数据流:选择以输出原始数据以及附加主因子的其他字段。所添加的字段标记为 PC1、PC2,依此类推。设置要附加的主因子数。

图表选项卡

使用图表选项选项卡为图表输出设置控件。

  • 图表大小:选择英寸或厘米来丈量图表大小。

  • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x (96 dpi)2x (192 dpi);或 3x (288 dpi)

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

  • 基本字体大小(点):选择图表中字体的大小。

查看输出

将“浏览”工具连接到每个输出锚点以查看结果。

  • O 锚点:包含附加了主因子的输入数据流。

  • R 锚点:包含由主要组件工具生成的报告片段:统计摘要、基本图和双标图。

*https://zh.wikipedia.org/wiki/主成分分析