Skip to main content

Purple box with two similar shapes and equals signs between. “模糊匹配”工具

单个工具示例

模糊匹配具有一个“单个工具示例”。访问 示例工作流 以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

使用“模糊匹配”工具,通过指定匹配字段和相似度阈值来识别数据集的非完全一致的重复项。匹配分数只需要落在配置属性中设置的用户指定阈值或默认阈值范围内。

构建模糊匹配的最有效方法是对输入文件中的多个字段执行匹配处理。应使用预定义或自定义匹配样式单独配置每个字段,通过 模糊匹配编辑匹配选项 进行配置。

模糊匹配仅适用于拉丁和日语字符集,某些匹配功能仅与英语或日语兼容。模糊匹配功能考虑了日语文字的各种差异,例如半角和全角字符,平假名和片假名,假名修饰语和古汉字形态。

配置工具

要使“模糊匹配”工具发挥作用,每个数据记录都必须具有唯一标识符。请检查您的数据,如果没有唯一键字段,请在上一步添加 “记录 ID”工具

 1. 选择首选匹配模式:

  • 清除模式(对比所有记录) :比较来自一个来源的所有记录以识别重复项。

  • 合并模式(仅比较不同来源的记录) :比较不同来源的记录,以识别不同输入文件中的重复项。使用合并模式时,每个源都必须包含 源ID字段 。通过在每个“输入数据”工具中选择 将文件名输出为字段 选项,可以方便地添加源ID字段。此设置将在每条记录中添加一个字段,其中包含文件名或整个文件路径。

 2. 指定唯一 记录ID字段

 3. 指定 匹配阈值 的百分比。默认值为 80%。如果“模糊匹配”工具生成的匹配分数低于指定的阈值,则记录不符合匹配条件。匹配分数考虑“模糊匹配”工具配置属性中的每个规范:在计算分数时考虑每个字段、匹配样式、匹配权重和结果字段匹配分数,然后根据指定的匹配阈值计算分数。

 4. 设置 匹配字段 。使用 上移 下移 按钮按匹配顺序排列。使用 删除 来移除不需要的匹配项。

  1. 选择要匹配的 字段名称 。输入连接中已有的任何字段都将显示在此下拉列表中。

  2. 从下拉列表中选择 匹配样式 。选项包括:

   • Address :为查找地址匹配而配置的预定义的匹配样式。此样式结合了双音素算法和数字匹配,用于识别匹配的地址。将此样式应用于商业地址。

   • Address No Suite :预定义的匹配样式,为查找输入数据的“地址”字段中没有房号信息的匹配地址而配置。此样式结合了双音素算法和数字匹配,用于识别匹配的地址。将此样式应用于住宅地址。

   • AddressPart :为查找匹配地址而配置的预定义匹配样式。此样式结合了双音素算法和数字匹配,用于识别匹配的地址。AddressPart 与传统地址匹配样式不同,因为它不使用词频分析,并且匹配阈值相对要低 5%。

   • Company Name :预定义的匹配样式,为查找匹配的公司名称而配置。此样式基于双音素算法识别匹配项。

   • Phone :预定义的匹配样式,为查找匹配的电话号码而配置。此样式仅查看电话号码字段中的数字,并与反向 10 位数字进行匹配,忽略部分字段中可能包含的短划线、括号和前导 1。此样式还支持日语电话号码格式。

   • ZIP Code :预定义的匹配样式,为查找匹配的邮政编码而配置。此样式查看5 位数字部分的邮政编码字段,并相应地分配匹配项。

   • Exact :此字段必须完全匹配才能被视为匹配项。此逻辑完全不模糊。

   • 日语地址 :预定义匹配样式,为查找日语地址匹配项(包括各种街道号码格式)而配置。匹配项示例: 今津 3 -14-19 今津 3 丁目 14 番地 19

   • 日语公司名称 :预定义的匹配样式,为查找日语公司名称匹配项而配置。匹配项示例: 株式会社伊藤工務店 (株)伊東工務店 ㈱伊藤工務店

   • 日语名称 :预定义的匹配样式,为查找日语名称匹配项而配置。匹配项示例: 高橋 啓介 髙橋啓介

   • 日语文本 :预定义的匹配样式,用于除地址、公司名称和名称选项之外的日语文本。匹配示例: 6ヵ月 6ヶ月

   • Name :为查找匹配的名称配置的预定义匹配样式。此样式使用双音素算法。

   • Name w/ Nickname :为查找匹配的名称配置的预定义匹配样式。此样式使用双音素算法。此外,此样式还使用绰号表格来进行检查,以进一步识别重复项。例如,Andrew 可能与 Andy 和/或 Drew 匹配。

   • 自定义 :允许用户定义自己的匹配参数,以便可以重复运行匹配,而不必重新配置匹配属性。当然,您也可以重新配置和覆盖这些自定义匹配样式,或者创建新的自定义样式。

  3. 根据需要,使用 编辑... 按钮编辑 匹配样式 。此时将显示 模糊匹配编辑匹配选项 对话框。

 5. 指定 高级选项

  • 输出匹配分数 :匹配分数将显示在额外的输出字段中。

  • 输出生成的键 :将生成的匹配样式中的键作为额外字段输出。

  • 输出不匹配的记录 :不与任何其他记录匹配的记录将作为额外记录输出。有时,不匹配的记录输出会报告匹配分数,应忽略该分数。此问题可能会在将来的版本中解决。 编辑匹配选项 中的 为空则忽略 选项优先于此选项。

  • 不对比已在一组内的记录 :已匹配的记录不会与其他记录进行比较,从而减少了处理工作量和时间。例如,如果记录 1 与记录 2 和记录 3 匹配,则记录 2 不会与记录 3 进行匹配。在下游使用“制作组”工具将这些组链接在一起。

  • 仅生成键 :返回所有记录和一个包含生成的键的额外字段。未执行匹配。

有关模糊匹配使用的其他信息,请访问 模糊匹配常见问题