Skip to main content

模糊匹配常见问题解答

以下主题是与 模糊匹配工具 模糊匹配编辑匹配选项 相关的常见问题。

这个问题没有标准答案。需要考虑多个记录中不同的匹配字段,以及可以将相应记录表示为唯一记录的字段。例如,在标准联系人数据库中,姓名、地址和电话号码所标识的人员应为唯一人员。很多人可以身处同一个城市和省份,因此这些字段意义不大。

在使用多个字段时,了解它们的关系,以及在匹配过程中考虑每个字段的重要性或权重,是非常重要的。例如,姓名的重要性可能较地址和邮政编码偏低,因此若使姓名加权小于地址和邮政编码加权,就会使得地址和邮政编码的精确匹配项更多,而使姓名的评分低于精确匹配评分。

  • 清除模式(比较所有记录) 可在各单独数据集之中查找匹配项,也可在两个数据集之间查找匹配项。清除模式用于单个数据集,可删除数据库中的重复项或重复数据。这可以作为执行两个数据库合并之前的准备步骤。

  • 合并(仅比较来自不同源的记录) 可比较来自两个不同数据源的记录。选择合并只能查找两个数据集之间的匹配项。

在使用合并模式之前,应删除数据库中的重复数据,因为:

  • 合并模式无法检测出同一来源中的重复记录。

  • 删除重复记录可使匹配过程更快。数据集 1 有 5 个重复项。数据集 2 有 10 个重复项。如果在不清除这些重复项的情况下运行合并,则匹配时将检查 50 个匹配对。如果清除了重复项,则匹配时将检查 1 个匹配对。

模糊匹配工具利用标识符 (ID) 标记匹配项,适用于跨文件标记,以及单一文件内跨行进行标记。模糊匹配工具利用相应 ID 来报告记录匹配情况。

每个记录(包括来自不同数据集的记录)的 ID 必须唯一,以确保工具输出的数据准确无误。对于唯一 ID,请遵循以下最佳实践:

  • 了解数据集的大小,以便更好地理解每个 RecordID 列的必要初始值。

  • 将记录 ID 工具添加到两个数据集流。

  • 将不同数据集流的“初始值”设置为相差几个量级,以确保所有记录都有唯一赋值。

最佳实践

将 100000000 指定为主文件的 RecordID 工具的初始值,将 200000000 指定为客户文件的初始值。始终使用该做法可以让您轻松识别匹配记录的来源。

在清除模式下,RecordID1 和 RecordID2 中的数据是数据集中的行标识符。

在合并模式下,RecordID1 和 RecordID2 与各个数据集中的已匹配 ID 一一对应。将记录 ID 设置为不同量级的初始值,可以让您更轻松地识别正在引用的数据集。

如果两个 ID 按字母顺序排序,则 RecordID1 始终是匹配对中的“第一个”值。

模糊匹配的匹配对 ID 按行呈字母数字顺序排列。数字 RecordID 字段将 RecordID1 至 RecordID2 按从小到大进行排序,但字符串 RecordID 可以按非预期方式排序。

记录 101 与记录 11 匹配。如果字段以数字形式进行存储,则 RecordID1 为 11,RecordID2 为 101。如果字段以字符串形式进行存储,则 RecordID1 为 101,RecordID2 为 11。

切换到数字 RecordID 字段,或验证带有前置 RecordID 的字符串在各记录中是否具有标准化格式。

在大多数地址匹配情形中,如果地址数据库中的数据填写内容一致,则匹配时不需要对城市和省份字段进行匹配。 姓名 地址 邮政编码 是更常用的匹配样式选项。对您的数据进行检查,以确定城市或省份字段是否为相关字段。

如果出现以下情况,请使用 双变音算法

  • 城市和省份字段为非缩写字段。

  • 字段可能包含拼写错误。

如果出现以下情况,请使用 整个字段 整个字段 - 不区分大小写

  • 省份字段为缩写,需要精确匹配。如果要继续进行更精细的匹配,则通常需要使用精确匹配。

在许多地址匹配情形中,匹配时不需要对房间字段进行匹配。 姓名 地址 邮政编码 是更常用的 匹配样式 选项。对您的数据进行检查,以确定房间字段是否为相关字段。

对于任何地址字段,无论地址是否包含房间号, 双变音算法(含数位) 都是首选的匹配样式。同时考虑使用 预处理 项下的 去除标点符号并从美国地址中移除单位 选项。

在大多数情况下,无需将姓名字段解析为单个组件字段,也无需满足更优匹配。在使用 Soundex 算法的同时使用 为每个单词生成键 选项,以生成姓名字段键。这样能够确保单词顺序不被纳入考量,因此“Cindy Smith”或“Smith, Cindy”都将成为匹配项。

解析姓名字段能有效帮助您对每个值施加不同的权重。

要使 Rosey Smith 与 R Smith 匹配,则使姓氏权重为 80%,名字权重为 20%。

使用 编辑… > 预处理 项下的 删除标点符号和称谓 ,即可在执行匹配时忽略这些词。