模糊匹配常见问题解答

在单个模糊匹配工具中应配置多少个字段？

这个问题没有标准答案。需要考虑多个记录中不同的匹配字段，以及可以将相应记录表示为唯一记录的字段。例如，在标准联系人数据库中，姓名、地址和电话号码所标识的人员应为唯一人员。很多人可以身处同一个城市和省份，因此这些字段意义不大。

在使用多个字段时，了解它们的关系，以及在匹配过程中考虑每个字段的重要性或权重，是非常重要的。例如，姓名的重要性可能较地址和邮政编码偏低，因此若使姓名加权小于地址和邮政编码加权，就会使得地址和邮政编码的精确匹配项更多，而使姓名的评分低于精确匹配评分。

合并和清除模式有何区别？

清除模式（比较所有记录） 可在各单独数据集之中查找匹配项，也可在两个数据集之间查找匹配项。清除模式用于单个数据集，可删除数据库中的重复项或重复数据。这可以作为执行两个数据库合并之前的准备步骤。
合并（仅比较来自不同源的记录） 可比较来自两个不同数据源的记录。选择合并只能查找两个数据集之间的匹配项。

为什么在利用合并模式发送数据库之前，需要对数据库运行重复数据删除？

在使用合并模式之前，应删除数据库中的重复数据，因为：

合并模式无法检测出同一来源中的重复记录。
删除重复记录可使匹配过程更快。数据集 1 有 5 个重复项。数据集 2 有 10 个重复项。如果在不清除这些重复项的情况下运行合并，则匹配时将检查 50 个匹配对。如果清除了重复项，则匹配时将检查 1 个匹配对。

为什么每条记录都需要唯一 ID？

模糊匹配工具利用标识符 (ID) 标记匹配项，适用于跨文件标记，以及单一文件内跨行进行标记。模糊匹配工具利用相应 ID 来报告记录匹配情况。

每个记录（包括来自不同数据集的记录）的 ID 必须唯一，以确保工具输出的数据准确无误。对于唯一 ID，请遵循以下最佳实践：

了解数据集的大小，以便更好地理解每个 RecordID 列的必要初始值。
将记录 ID 工具添加到两个数据集流。
将不同数据集流的“初始值”设置为相差几个量级，以确保所有记录都有唯一赋值。

最佳实践

将 100000000 指定为主文件的 RecordID 工具的初始值，将 200000000 指定为客户文件的初始值。始终使用该做法可以让您轻松识别匹配记录的来源。

在模糊匹配工具中，RecordID1 和 RecordID2 字段的命名惯例令人困惑。如何明确这些字段的含义？

在清除模式下，RecordID1 和 RecordID2 中的数据是数据集中的行标识符。

在合并模式下，RecordID1 和 RecordID2 与各个数据集中的已匹配 ID 一一对应。将记录 ID 设置为不同量级的初始值，可以让您更轻松地识别正在引用的数据集。

如果两个 ID 按字母顺序排序，则 RecordID1 始终是匹配对中的“第一个”值。

我的源中的记录在 RecordID 字段之间被拆分了。为什么它们不在同一列中？

模糊匹配的匹配对 ID 按行呈字母数字顺序排列。数字 RecordID 字段将 RecordID1 至 RecordID2 按从小到大进行排序，但字符串 RecordID 可以按非预期方式排序。

记录 101 与记录 11 匹配。如果字段以数字形式进行存储，则 RecordID1 为 11，RecordID2 为 101。如果字段以字符串形式进行存储，则 RecordID1 为 101，RecordID2 为 11。

切换到数字 RecordID 字段，或验证带有前置 RecordID 的字符串在各记录中是否具有标准化格式。

如果我想在匹配配置中使用城市或省份字段，我应该使用哪种匹配样式？

在大多数地址匹配情形中，如果地址数据库中的数据填写内容一致，则匹配时不需要对城市和省份字段进行匹配。姓名、地址和 邮政编码 是更常用的匹配样式选项。对您的数据进行检查，以确定城市或省份字段是否为相关字段。

如果出现以下情况，请使用 双变音算法 ：

城市和省份字段为非缩写字段。
字段可能包含拼写错误。

如果出现以下情况，请使用 整个字段 或 整个字段 - 不区分大小写 ：

省份字段为缩写，需要精确匹配。如果要继续进行更精细的匹配，则通常需要使用精确匹配。

如果我的数据库中有多个地址配置（即含有或不含房间号的地址、以附加字段形式表示房间号的地址），我应该使用哪种匹配样式？

在许多地址匹配情形中，匹配时不需要对房间字段进行匹配。姓名、地址和 邮政编码 是更常用的 匹配样式 选项。对您的数据进行检查，以确定房间字段是否为相关字段。

对于任何地址字段，无论地址是否包含房间号， 双变音算法（含数位） 都是首选的匹配样式。同时考虑使用 预处理 项下的 去除标点符号并从美国地址中移除单位 选项。

如果将一个姓名字段解析为多个字段（即名字、姓氏、中间名首字母），能获得更好的匹配结果吗？

在大多数情况下，无需将姓名字段解析为单个组件字段，也无需满足更优匹配。在使用 Soundex 算法的同时使用 为每个单词生成键 选项，以生成姓名字段键。这样能够确保单词顺序不被纳入考量，因此“Cindy Smith”或“Smith, Cindy”都将成为匹配项。

解析姓名字段能有效帮助您对每个值施加不同的权重。

要使 Rosey Smith 与 R Smith 匹配，则使姓氏权重为 80%，名字权重为 20%。

如果名称字段包含Mr., Mrs., Miss 等，该怎么办？这是否会影响此字段的匹配率？

使用 编辑… > 预处理 项下的 删除标点符号和称谓 ，即可在执行匹配时忽略这些词。

本节内容如下: