Domande frequenti su Corrispondenza sfocata

I seguenti argomenti sono domande comuni relative allo strumento Corrispondenza sfocata e alle relative opzioni di modifica della corrispondenza .

Quanti campi è necessario configurare in un singolo strumento Corrispondenza sfocata?

Non esiste una risposta standard a questa domanda. Considera i campi corrispondenti che devono essere diversi tra i record e che potrebbero indicare il record come univoco. Ad esempio, in un database di contatti standard, il nome, l'indirizzo e il numero di telefono devono identificare una persona univoca. Molte persone possono avere in comune la città e lo stato, pertanto questi campi sono meno significativi.

È importante comprendere la relazione tra l'utilizzo di più campi e quanta importanza, o peso, occorre assegnare a ciascun campo considerato nel processo di corrispondenza. Ad esempio, il nome potrebbe non essere importante come l'indirizzo e il CAP, quindi una ponderazione inferiore del nome rispetto all'indirizzo e al CAP può determinare più corrispondenze in cui l'indirizzo e il CAP sono esatti, mentre il nome ottiene meno di una corrispondenza esatta.

Qual è la differenza tra le modalità Fusione e Pulizia?

La modalità Pulizia (tutti i record confrontati) consente di trovare le corrispondenze all'interno di ogni singolo set di dati e le corrispondenze tra due set di dati. La modalità Pulizia può essere utilizzata su un set di dati per rimuovere duplicati dal database o per deduplicarlo. Questa può essere una fase preparatoria in vista della fusione di due database.
Fusione (vengono confrontati solo i record provenienti da una diversa origine) confronta i record di due origini dati diverse. L'opzione Fusione consente di trovare corrispondenze solo tra due set di dati.

Perché è necessario deduplicare il database prima di inviarlo tramite la modalità Fusione?

Prima di utilizzare la modalità Fusione, è necessario deduplicare un database per i seguenti motivi:

La modalità Fusione non rileva i record duplicati all'interno della stessa origine.
Il processo di corrispondenza è più veloce senza record duplicati. Il set di dati 1 ha 5 duplicati. Il set di dati 2 ne ha 10. Se si esegue la Fusione senza eliminare questi duplicati, la corrispondenza controllerà 50 coppie di corrispondenze. Se i duplicati vengono eliminati, la corrispondenza controllerà 1 coppia di corrispondenze.

Perché devo disporre di un ID univoco per ogni record?

Lo strumento Corrispondenza sfocata utilizza un identificatore (ID) per assegnare etichette alle corrispondenze, da un file all'altro o da una riga all'altra in un singolo file. Lo strumento utilizza l'ID per indicare i record corrispondenti.

L'ID deve essere univoco per ogni record, compresi i record di diversi set di dati, in modo da garantire un output preciso dello strumento. Per ottenere ID univoci, attieniti alle seguenti best practice:

Se conosci le dimensioni dei tuoi set di dati puoi comprendere meglio il valore iniziale necessario per ciascuna colonna ID Record.
Aggiungi un strumento ID Record a entrambi i flussi di set di dati.
Imposta il "valore iniziale" dei diversi flussi di set di dati con diverse grandezze l'una rispetto all'altra per garantire che a tutti i record sia assegnato un valore univoco.

Best Practice

Assegna 100000000 come valore iniziale per lo strumento ID Record per il file primario e 200000000 come valore iniziale per il file cliente. Seguendo questa best pratice è possibile identificare facilmente le origini dei record di corrispondenza.

La convenzione di denominazione dei campi ID Record 1 e ID Record 2 viene confusa poiché deriva dallo strumento Corrispondenza sfocata. Esiste un modo per mantenere questi campi in ordine?

In modalità Pulizia, i dati in ID Record 1 e ID Record 2 sono gli identificatori di riga del set di dati.

In modalità Fusione, ID Record 1 e ID Record 2 rappresentano gli ID corrispondenti, uno per ogni set di dati. L'impostazione degli ID Record sui valori iniziali di diverse grandezze consente di riconoscere più facilmente il set di dati a cui si fa riferimento.

ID Record 1 è sempre il "primo" valore della coppia corrispondente se i due ID sono in ordine alfanumerico.

I record delle origini vengono suddivisi tra i campi ID Record. Perché non si trovano nella stessa colonna?

Gli ID delle coppie di corrispondenze di Corrispondenza sfocata sono in ordine alfanumerico per riga. I campi numerici ID Record vengono ordinati da ID Record 1 a ID Record 2, rispettivamente dal più piccolo al più grande, ma le stringhe ID Record possono essere ordinate in modi imprevisti.

Record 101 corrisponde al record 11. Se i campi sono ordinati come numeri, ID Record 1 sarà 11 e ID Record 2 sarà 101. Se i campi sono ordinati come stringhe, ID Record 1 sarà 101 e ID Record 2 sarà 11.

Passa a un campo ID Record numerico o verifica che le stringhe con ID Record anteposte abbiano un formato standardizzato tra i record.

Se desidero utilizzare la città o lo stato nella configurazione di corrispondenza, quale stile di corrispondenza devo utilizzare?

Nella maggior parte degli scenari di corrispondenza degli indirizzi, in cui il database degli indirizzi è regolarmente popolato con i dati, i campi Città e Stato non sono necessari per la corrispondenza. Nome , Indirizzo e CAP sono le opzioni Stile di corrispondenza più comunemente utilizzate. Esamina i dati per stabilire se i campi Città o Stato possono essere rilevanti.

Utilizza Double Metaphone se:

I campi Città e Stato non sono abbreviati.
I campi possono contenere errori di ortografia.

Utilizza Campo intero o Campo intero (senza distinzione tra maiuscole e minuscole) se:

Il campo Stato è abbreviato e richiede una corrispondenza esatta. Una corrispondenza esatta è richiesta in genere se si passa a un processo di corrispondenza più granulare.

Se nel database sono presenti più configurazioni di indirizzi (ad esempio alcuni indirizzi con numeri di appartamento e altri senza, altri con numeri di appartamento in un campo aggiuntivo), quale stile di corrispondenza devo utilizzare?

In molti scenari di corrispondenza degli indirizzi, i campi di numero appartamento non sono necessari per la corrispondenza. Nome , Indirizzo e CAP sono le opzioni Stile di corrispondenza più comunemente utilizzate. Esamina i dati per determinare se i campi dei numeri di appartamento possono essere rilevanti.

Double Metaphone con cifre è lo stile di corrispondenza preferito per qualsiasi campo di indirizzo, indipendentemente dal fatto che l'indirizzo includa o meno i numeri di appartamento. Inoltre, utilizza anche l'opzione Rimuovi punteggiatura e Rimuovi unità da indirizzi USA in Pre-elabora .

Se analizzo un campo Nome in più campi (ad esempio, Nome, Cognome, Iniziale secondo nome), otterrò risultati migliori?

Nella maggior parte dei casi, l'analisi di un campo nome in singoli campi componente non è necessaria e non dovrebbe determinare una migliore corrispondenza. Utilizza l'opzione Genera chiavi per ogni parola con l'algoritmo Soundex per generare le chiavi dei campi dei nomi. In questo modo, l'ordine delle parole non viene considerato, quindi sia "Cindy Smith" che "Smith, Cindy" sono considerati una corrispondenza.

L'analisi del campo Nome è utile quando si desidera applicare pesi diversi a ciascun valore.

Perché Rosey Smith corrisponda a R Smith, il cognome è ponderato all'80% mentre il nome al 20%.

E se il campo del nome contiene Mr., Mrs., Miss, ecc.? Questo influirà sulla percentuale di corrispondenza per questo campo?

In Modifica... > Pre-elabora , utilizza Rimuovi punteggiatura & formule di saluto per ignorare queste parole durante l'esecuzione di una corrispondenza.

In questa sezione: