Skip to main content

Purple box with two similar shapes and equals signs between. Outil Correspondance partielle

Exemple d'outil unique

L'outil Correspondance partielle comporte un exemple d'outil unique. Accédez à la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

L'outil Correspondance partielle peut être utilisé pour identifier des doublons non identiques d'un jeu de données en spécifiant des seuils de similarité. Les scores de correspondance ne doivent se situer que dans les seuils définis par l'utilisateur ou par défaut dans les propriétés de configuration.

Le moyen le plus efficace de créer une correspondance partielle est d'effectuer le processus de correspondance sur plusieurs champs du fichier d'entrée. Chaque champ doit être configuré à l'aide d'un style de correspondance prédéfini ou personnalisé, configuré dans la boîte de dialogue  Modifier les options de correspondance .

L'outil Correspondance partielle n'accepte que les jeux de caractères latins et japonais et certaines fonctionnalités de correspondance ne sont compatibles qu'avec les langues anglaise ou japonaise. La fonction correspondance partielle tient compte de diverses différences dans l'orthographe japonaise, comme les caractères demi-largeur et pleine largeur, hiragana et katakana, les modificateurs kana et les anciennes formes kanji.

Configuration de l'outil

Un identifiant unique pour chaque enregistrement de données est nécessaire afin que l'outil Correspondance partielle fonctionne. Inspectez vos données, s'il n'y a pas de tel champ de clé, ajoutez un outil ID d'enregistrement une étape en amont.

  1. Choisissez le mode de correspondance préféré :

    • Mode Purger (tous les enregistrements sont comparés)  : tous les enregistrements d'une source unique sont comparés pour identifier les doublons.

    • Mode Fusionner (seuls les enregistrements provenant d'une source différente sont comparés)  : les enregistrements de sources différentes sont comparés afin d'identifier les doublons dans plusieurs fichiers d'entrée. Lorsque vous utilisez le mode Fusionner, chaque source doit contenir un champ d'ID source . Vous pouvez facilement ajouter un champ d'ID source en choisissant l'option Générer un champ avec le nom du fichier dans chaque outil Entrée de données. Ce paramètre ajoute, à chaque enregistrement, un champ comportant le nom de fichier ou le chemin de fichier complet.

  2. Spécifiez le champ d'ID d'enregistrement unique.

  3. Spécifiez le seuil de correspondance en pourcentage. La valeur par défaut est 80 %. Si le score de correspondance généré par l'outil Correspondance partielle est inférieur au seuil spécifié, l'enregistrement est ignoré pour la correspondance. Le score de correspondance tient compte de chaque spécification dans les propriétés de configuration de l'outil Correspondance partielle : chaque champ, le style de correspondance, le poids de la correspondance et le score de correspondance du champ résultant sont pris en compte dans le calcul du score, qui est alors comparé au seuil de correspondance spécifié.

  4. Configurez vos champs de correspondance . Utilisez les boutons Haut et Bas pour les organiser par ordre de correspondance. Utilisez le boutton  Supprimer pour supprimer les correspondances inutiles.

    1. Sélectionnez le nom de champ concerné par la correspondance. Les champs figurant déjà dans le fichier d'entrée sont disponibles dans cette liste déroulante.

    2. Sélectionnez le style de correspondance souhaité dans la liste déroulante. Les choix comprennent :

      • Address  : style de correspondance prédéfini configuré pour trouver des correspondances d'adresses. Ce style intègre des algorithmes Double Metaphone combinés avec une correspondance de chiffres pour identifier les adresses correspondantes. Appliquez ce style aux adresses commerciales.

      • Address sans suite  : style de correspondance prédéfini configuré pour trouver des correspondances d'adresses dont les données d'entrée ne comportent aucune information de suite dans le champ d'adresse. Ce style intègre des algorithmes Double Metaphone combinés avec une correspondance de chiffres pour identifier les adresses correspondantes. Appliquez ce style aux adresses résidentielles.

      • Partie d'adresse  : style de correspondance prédéfini configuré pour trouver des correspondances d'adresses. Ce style intègre des algorithmes Double Metaphone combinés avec une correspondance de chiffres pour identifier les adresses correspondantes. Le style « Partie d'adresse » se distingue d'un style de correspondance d'adresse traditionnel dans la mesure où il n'a pas recours à l'analyse de la fréquence des mots et où le seuil de correspondance est inférieur de 5 %.

      • Nom d'entreprise  : style de correspondance prédéfini configuré pour trouver des correspondances de noms d'entreprise. Ce style identifie les correspondances en fonction des algorithmes Double Metaphone.

      • Téléphone  : style de correspondance prédéfini configuré pour trouver des correspondances de numéros de téléphone. Ce style consulte uniquement les chiffres dans un champ de téléphone et établit des correspondances sur les 10 chiffres inversés, en ignorant les tirets, les parenthèses et les chiffres « 1 » de gauche pouvant faire partie du champ. Ce style prend également en charge le format de numéro de téléphone japonais.

      • Code postal  : style de correspondance prédéfini configuré pour trouver des correspondances de codes postaux. Ce style consulte les 5 chiffres d'un champ de code postal et attribue une correspondance en conséquence.

      • Exact  : ce champ doit correspondre de manière exacte pour être considéré comme une concordance. Cette logique n'est pas partielle.

      • Adresse en japonais  : style de correspondance prédéfini configuré pour rechercher des correspondances d'adresses en japonais, y compris des formats de numéro de rue différents. Exemple de correspondance : 今津3-14-19 et 今津3丁目14番地19 .

      • Nom de l'entreprise en japonais  : style de correspondance prédéfini configuré pour rechercher des correspondances de noms d'entreprise en japonais. Exemple de correspondance : 株式会社伊藤工務店 , (株)伊東工務店 et ㈱伊藤工務店 .

      • Nom en japonais  : style de correspondance prédéfini configuré pour rechercher des correspondances de noms en japonais. Exemple de correspondance : 高橋 啓介 et 髙橋啓介 .

      • Texte en japonais  : style de correspondance prédéfini pour le texte japonais autre que les options adresse, nom de la société et nom. Exemple de correspondance : 6ヵ月 et 6ヶ月 .

      • Nom  : style de correspondance prédéfini configuré pour trouver des correspondances de noms. Ce style intègre des algorithmes Double Metaphone.

      • Nom avec surnoms  : style de correspondance prédéfini configuré pour trouver des correspondances de noms. Ce style intègre des algorithmes Double Metaphone. En outre, ce style utilise une table de surnoms courants à des fins de comparaison et d'identification de doublons. Par exemple, le nom Andrew peut correspondre à Andy et/ou Drew .

      • Personnalisé  : permet à l'utilisateur de définir ses propres paramètres de correspondance afin de pouvoir exécuter la correspondance à volonté sans devoir reconfigurer les propriétés de correspondance. Il est également possible de reconfigurer et de remplacer ces styles de correspondance personnalisés, ainsi que de créer de nouveaux styles personnalisés.

    3. Utilisez le bouton Modifier… pour modifier le style de correspondance si nécessaire. La boîte de dialogue Modifier les options de correspondance s'affiche.

  5. Spécifiez les options avancées  :

    • Générer la sortie du score de correspondance  : le score de correspondance figurera dans un champ de sortie supplémentaire.

    • Générer la sortie des clés générées  : sort un champ supplémentaire correspondant à la clé générée par les styles de correspondance.

    • Générer la sortie des enregistrements sans correspondance  : les enregistrements qui ne correspondent à aucun autre enregistrement seront sortis en tant qu'enregistrements supplémentaires. Occasionnellement, l'option « Générer la sortie des enregistrements sans correspondance » signalera un score de correspondance qui devrait être ignoré. Ce problème sera peut-être corrigé dans une prochaine version. L’option Ignorer si vide de Modifier les options de correspondance est traitée en priorité par rapport à cette option.

    • Ne pas comparer les enregistrements déjà dans un groupe  : les enregistrements qui ont été mis en correspondance ne seront pas comparés à d'autres enregistrements, ce qui réduira le temps et les efforts de traitement. Par exemple, si l'enregistrement 1 correspond à l'enregistrement 2 et à l'enregistrement 3, alors l'enregistrement 2 ne sera pas comparé à l'enregistrement 3. Utilisez un outil Créer le groupe en aval pour relier ces groupes entre eux.

    • Générer les clés uniquement  : tous les enregistrements sont renvoyés avec les clés générées en tant que champ supplémentaire. Aucune correspondance n'est faite.

Pour plus d'informations sur l'utilisation de l'outil Correspondance partielle, consultez la FAQ Correspondance partielle .