Skip to main content

Perguntas frequentes sobre a ferramenta Correspondência Parcial

Os tópicos a seguir representam perguntas comuns relacionadas à ferramenta Correspondência Parcial e à página relacionada Editar opções de correspondência na ferramenta Correspondência Parcial .

Não há resposta padrão para essa pergunta. Considere corresponder campos que devem ser diferentes entre os registros e podem denotar que o registro é exclusivo. Por exemplo, em uma base de contatos padrão, o nome, o endereço e o número de telefone devem identificar uma única pessoa. Muitas pessoas podem ser da mesma cidade e do mesmo estado, portanto, campos com essas informações seriam menos significativos.

É importante entender a relação entre o uso de múltiplos campos e qual importância, ou peso, é preciso dar para cada campo que está sendo considerado no processo de correspondência. Por exemplo, o campo "Nome" pode não ser tão importante quanto "Endereço" e "CEP", portanto, dar a "Nome" um peso menor que aos outros dois campos pode resultar em mais correspondências em que o endereço e CEP têm uma correspondência exata, mas o nome tem pontuação menor do que uma correspondência exata.

  • Modo de purga (todos os registros comparados)  encontra correspondências dentro de cada conjunto de dados individual, bem como correspondências entre dois conjuntos de dados. O modo de purga pode ser usado para remover duplicatas de uma base de dados. Isso pode ser uma etapa de preparação antes da mescla de duas bases de dados ser executada.

  • Modo de mescla (somente registros de uma fonte diferente são comparados)  compara registros de duas fontes de dados diferentes. A opção de mescla encontra apenas correspondências entre dois conjuntos de dados.

As duplicatas de uma base de dados devem ser removidas antes de usar o modo de mescla porque:

  • O modo de mescla não detecta registros duplicados na mesma fonte.

  • O processo de correspondência é mais rápido sem registros duplicados. O conjunto de dados 1 tem 5 duplicatas. O conjunto de dados 2 tem 10. Se uma mescla for executada sem purgar essas duplicatas, a correspondência verificará 50 pares de correspondência. Se as duplicatas forem purgadas, a correspondência verificará 1 par de correspondência.

A ferramenta Correspondência Parcial usa um identificador (ID) para rotular as correspondências, seja de um arquivo para outro ou de uma linha para outra em um único arquivo. A ferramenta usa o ID para relatar quais registros apresentam correspondência.

Cada registro deve ter um ID exclusivo, incluindo registros de conjuntos de dados diferentes, para garantir a acurácia dos resultados da ferramenta. Siga estas práticas recomendadas para IDs exclusivos:

  • Saiba o tamanho dos seus conjuntos de dados para entender melhor o valor inicial necessário para cada coluna de ID de registro.

  • Adicione uma ferramenta ID de Registro aos dois fluxos de dados.

  • Defina o "Valor inicial" dos fluxos de dados com várias magnitudes de diferença entre si, para garantir que todos os registros tenham um valor exclusivo atribuído.

Prática recomendada

Atribua 100000000 como o valor inicial da ferramenta ID de Registro para o arquivo mestre e 200000000 como o valor inicial para o arquivo do cliente. O uso consistente dessa prática permite que você identifique facilmente as origens dos registros com correspondência.

No modo de purga, os dados em RecordID1 e RecordID2 são os identificadores de linha do seu conjunto de dados.

No modo de mescla, RecordID1 e RecordID2 equivalem aos IDs que foram correspondidos, um de cada conjunto de dados. Configurar os IDs de registro com valores iniciais de magnitudes diferentes permite que você reconheça com mais facilidade qual conjunto de dados está sendo referenciado.

RecordID1 é sempre o "primeiro" valor no par correspondente se dois IDs forem classificados em ordem alfanumérica.

Os IDs dos pares de correspondência são classificados em ordem alfanumérica por linha. Os campos numéricos de ID de registro são ordenados de RecordID1 a RecordID2, do menor para o maior respectivamente, mas IDs de cadeia de caracteres podem ser ordenados de maneiras inesperadas.

O registro 101 apresenta correspondência ao registro 11. Se os campos estiverem armazenados como números, RecordID1 seria 11 e RecordID2 seria 101. Se os campos estiverem armazenados como cadeias de caracteres, RecordID1 seria 101 e RecordID2 seria 11.

Altere o campo de ID para um tipo numérico ou verifique se as cadeias de caracteres precedidas de ID têm um formato padronizado entre os registros.

Na maioria dos cenários de correspondência de endereços, em que a base de endereços é preenchida com dados de maneira consistente, não é necessário utilizar campos de cidade e estado no processo de correspondência.  Nome Endereço  e  CEP  são as opções de Estilo de correspondência usadas com mais frequência. Examine seus dados para determinar se os campos de cidade e estado podem ser relevantes.

Use  Double Metaphone  se...

  • Os campos de cidade e estado não estiverem abreviados.

  • Os campos podem conter erros ortográficos.

Use Campo inteiro  ou Campo inteiro (não diferenciar maiúsculas de minúsculas)  se...

  • O campo de estado estiver abreviado e exigir uma correspondência exata. Uma correspondência exata é normalmente exigida ao passar para um processo mais granular de correspondência.

Em muitos cenários de correspondência de endereços, os campos com o número da sala/suíte não são necessários no processo.  Nome Endereço  e  CEP  são as opções de  Estilo de correspondência  usadas com mais frequência. Examine seus dados para determinar se os campos de número da sala/suíte podem ser relevantes.

Double Metaphone com dígitos  é o estilo de correspondência preferido para qualquer campo de endereço, independentemente de o endereço incluir o número da sala. Considere também usar a opção  Remover pontuação e unidades de endereços dos EUA  em  Pré-processamento .

Na maioria dos casos, separar um campo de nomes em seus componentes individuais não é necessário e não melhora as correspondências geradas. Use a opção  Gerar chaves para cada palavra  com o algoritmo Soundex para gerar chaves de campos de nomes. Isso garante que a ordem das palavras não seja considerada, de maneira que "Cindy Smith" e "Smith, Cindy" são consideradas uma correspondência.

A separação de um campo com nomes é vantajosa quando você deseja atribuir pesos diferentes a cada valor.

Para Rosey Smith corresponder a R Smith, o peso atribuído ao sobrenome deve ser de 80% e ao nome de 20%.

Em  Editar... > Pré-processamento , use a opção  Remover pontuação e saudações  para ignorar essas palavras ao executar correspondências.