MB 规则工具会获取事务数据,并在转换数据后,使用 Apriori 算法 创建一组关联规则,或使用 Apriori 或 Eclat 算法创建频繁项集。该工具将生成事务数据和规则/项目集的摘要报告,同时生成一个可在下游进程中进一步调查的模型对象。
规则和项目集的不同之处在于,关联规则意味着组内项目之间存在特定的因果关系,而项目集则由事务中频繁共同出现的组构成。就关联规则而言,事务中某些项目子集(左侧项目,又称 LHS)的存在会导致事务中包含其他项目(右侧项目,又称 RHS)。
此工具使用 R 工具。转至选项 > 下载预测工具,并登录到 Alteryx 下载和许可门户以安装 R 和 R 工具使用的包。请参考下载和使用预测工具。
输入数据可能有两种不同的格式。第一种格式由包含单个项目标识符和该项目所在事务的标识符(一组唯一项目事务对)的记录组成。第二种格式由每个事务的单条记录组成,该记录包含事务中带分隔符的项目列表。
每条记录一个项目,带有一个事务键:此选项与唯一项目事务对相对应。在此选项下,您需要使用以下选项在数据流中指定两个字段:
选择事务关键字段:包含事务标识符字段的整数或字符串导向字段。
选择包含项目标识符的字段:包含项目标识符的整数或字符串导向字段。
每条记录一个事务,所有项目都在单个(内部分隔)字段中:此选项与事务包含在单条记录中的格式相对应。对于此格式,您需要使用以下选项在数据流中指定两个字段:
选择带有分隔事务项的字段:包含分隔事务项目列表的字符串导向字段。
提供用于在事务中分隔项目的分隔符:分隔符字符,如逗号。
该工具为查找关联规则和频繁项集提供了两种最常用的算法:Apriori 和 Eclat。
Apriori 算法采用逐级搜索的方式来查找 3 种类型的频繁项集(频繁、最大频繁和闭频繁)、关联规则或关联超边集。
Eclat 算法使用简单的交集运算进行等价类聚类,同时使用自下而上的点阵遍历来查找 3 种类型的频繁项集。除了选择要使用的方法外,还需要指定要查找的内容(例如,项目集、规则或超边集)。选项包括:
Apriori:此选项选择 Apriori 算法。使用这种方法,您可以查找频繁项集、最大频繁项集、闭频繁项集、关联规则(默认)或关联超边集。
Eclat:此选项选择 Eclat 算法来查找项集。您可以指定应查找频繁项集、最大频繁项集还是闭频繁项集。
控制参数会影响从事务数据中提取的关联规则、频繁项集或关联超边集的性质。这些参数包括:
规则或项目集中允许的最小项目数量:此参数限制返回的规则或项目集至少包含指定的项数。默认情况下,其值设置为 1(也是最小值),但也可以设置为更高的数值。此参数的自然选择为 1 或 2。
规则或项目集的最低支持级别:支持度是指包含项目集或关联规则中的项目的事务比例。此参数的默认值为 0.02,但也可设置在 0.002 到 1 之间。通常,此参数的值越低,返回的规则或项目集的数量就越大。在某些情况下,返回的规则或项目集的数量可能会耗尽用户的可用系统内存,因此不应使用过小的值。
规则或项目集所需的最低置信度(仅对 Apriori 有效):置信度是指 RHS 项目在同时包含 LHS 项目的事务中所占的事务比例。换句话说,它衡量的是当 LHS 也出现在事务中时,RHS 项目出现在事务中的概率。此测度方法仅适用于使用 Apriori 算法的情况。与支持度参数一样,此参数的值越低,返回的规则或项目集的数量就越大。在某些情况下,返回的规则或项目集的数量可能会耗尽用户的可用系统内存,因此不应使用过小的值。