Skip to main content

Purple box with two similar shapes and equals signs between. Fuzzy-Übereinstimmung-Tool

One-Tool-Beispiel

Für das Fuzzy-Übereinstimmung-Tool gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Mit dem Fuzzy-Übereinstimmung-Tool können Sie nicht identische Duplikate eines Datasets identifizieren, indem Sie Abgleichsfelder und Ähnlichkeitsschwellenwerte angeben. Die Werte müssen nicht genau sein, um eine Übereinstimmung zu finden, sondern müssen nur im Bereich der vom Benutzer angegebenen oder vorkonfigurierten Parameter liegen, die in den Konfigurationseigenschaften festgelegt wurden.

Das Fuzzy-Übereinstimmung kann am effektivsten konfiguriert werden, indem der Abgleichprozess mehreren Feldern in der Eingabedatei zugewiesen wird. Jedes Feld muss einzeln mit einem vordefinierten oder benutzerdefinierten Abgleichstil konfiguriert werden, der mit den Optionen zum Bearbeiten der Fuzzy-Übereinstimmung festgelegt wurde.

Fuzzy-Übereinstimmung funktioniert nur mit den Zeichensätzen „Lateinisch“ und „Japanisch“. Einige der Abgleichsfunktionen sind außerdem nur mit Englisch oder Japanisch kompatibel. Fuzzy-Übereinstimmung berücksichtigt verschiedene Unterschiede in der japanischen Rechtschreibung, wie Zeichen in halber und ganzer Breite, Hiragana und Katakana, Kana-Modifikatoren und alte Kanji-Formen.

Tool-Konfiguration

Eine eindeutige Kennung für jeden Datensatz ist erforderlich, damit das Fuzzy-Übereinstimmung-Tool funktioniert. Überprüfen Sie Ihre Daten - wenn es kein solches Schlüsselfeld gibt, fügen Sie ein Datensatz-ID-Tool in einem vorgeschalteten Schritt hinzu.

  1. Wählen Sie den bevorzugten Modus aus, in dem das Fuzzy-Übereinstimmung-Tool ausgeführt werden soll:

    • Bereinigungsmodus (Alle Datensätze werden verglichen) : Alle Datensätze aus einer einzigen Quelle werden miteinander abgeglichen, um Duplikate zu identifizieren.

    • Zusammenführungsmodus (Nur Datensätze aus einer anderen Quelle werden verglichen) : Datensätze aus verschiedenen Quellen werden miteinander abgeglichen, um Duplikate über verschiedene Eingabedateien hinweg zu identifizieren. Für den Zusammenführungsmodus muss jede Quelle über ein Quellen-ID-Feld verfügen. Ein Quellen-ID-Feld kann leicht angehängt werden, indem innerhalb jedes Dateneingabe-Tools die Option Dateiname als Feld ausgeben ausgewählt wird. Mit dieser Einstellung wird an jeden Datensatz ein Feld mit dem Dateinamen oder ein Feld mit dem vollständigen Dateipfad angehängt.

  2. Geben Sie das Feld für die eindeutige Datensatz-ID an.

  3. Geben Sie den Schwellenwert für Übereinstimmung als Prozentsatz an. Der Standardwert ist 80 %. Wenn die vom Fuzzy-Übereinstimmung-Tool erzeugte Bewertung der Übereinstimmung (Abgleichpunktzahl) unter dem Schwellenwert liegt, wird der Datensatz nicht als Übereinstimmung eingestuft. Die Bewertung der Übereinstimmung berücksichtigt jede Spezifikation innerhalb der Konfigurationseigenschaften des Fuzzy-Übereinstimmung-Tools: Jedes Feld, der Abgleichstil, die Übereinstimmungsgewichtung und die resultierende Feldabgleichpunktzahl werden bei der Berechnung der Punktzahl berücksichtigt, die anschließend mit dem angegebenen Schwellenwert für Übereinstimmung verglichen wird.

  4. Konfigurieren Sie die Option Übereinstimmendes Feld festlegen . Legen Sie ihre Ableichreihenfolge mit den Pfeiltasten aufwärts und abwärts fest. Nicht benötigte Übereinstimmungen können mit der Taste Entfernen gelöscht werden.

    1. Wählen Sie den Feldnamen aus, der für den Abgleich verwendet werden soll. Die Dropdown-Liste enthält alle in der Eingabeverbindung bereits vorhandenen Felder.

    2. Wählen Sie aus der Dropdownliste den Abgleichstil aus. Zur Auswahl stehen:

      • Adresse : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden Adressen. Dieser Stil umfasst Double Metaphone-Algorithmen, die zusammen mit einem Ziffernabgleich zum Ermitteln übereinstimmender Adressen verwendet werden. Verwenden Sie diesen Stil für Geschäftsadressen.

      • Adresse ohne Suite : Ein vordefinierter Abgleichsstil, der so konfiguriert ist, dass Adressabgleiche gefunden werden, wenn die Eingabedaten keine Suite-Informationen im Adressfeld enthalten. Dieser Stil umfasst Double Metaphone-Algorithmen, die zusammen mit einem Ziffernabgleich zum Ermitteln übereinstimmender Adressen verwendet werden. Verwenden Sie diesen Stil für Privatadressen.

      • AddressPart : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden Adressen. Dieser Stil umfasst Double Metaphone-Algorithmen, die zusammen mit einem Ziffernabgleich zum Ermitteln übereinstimmender Adressen verwendet werden. „AddressPart“ unterscheidet sich von einem normalen Adressenabgleichstil insofern, als es keine Wortfrequenzanalyse durchführt und der Schwellenwert für Übereinstimmungen um 5 % niedriger liegt.

      • Firmenname : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden Firmennamen. Dieser Stil identifiziert Übereinstimmungen mithilfe von Double Metaphone-Algorithmen.

      • Telefon : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden Telefonnummern. Dieser Stil untersucht ausschließlich die Ziffern in einem Telefonnummernfeld und führt einen Abgleich der letzten zehn Ziffern durch. Dabei werden Striche, Klammern und vorangehende Einsen („1“), die möglicherweise im Feld enthalten sind, ignoriert. Dieser Stil unterstützt auch das japanische Telefonnummernformat.

      • Postleitzahl  (Zip Code): Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden Postleitzahlen (ZIP-Codes). Dieser Stil untersucht die fünf Ziffern in einem Postleitzahlfeld (ZIP-Code) und weist die Übereinstimmung entsprechend zu.

      • Exact : Dieses Feld muss exakt übereinstimmen, um eine Übereinstimmung zu ergeben. Diese Logik entspricht nicht der Fuzzy-Logik.

      • Japanische Adresse : Ein vordefinierter Abgleichstil, der für die Suche nach japanischen Adressübereinstimmungen konfiguriert ist, einschließlich unterschiedlicher Straßennummernformate. Beispiel für Übereinstimmung: 今津3-14-19 und 今津3丁目14番地19 .

      • Japanischer Firmenname : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden japanischen Firmennamen. Beispiel für Übereinstimmung: 株式会社伊藤工務店 , (株)伊東工務店 und ㈱伊藤工務店 .

      • Japanischer Name : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden japanischen Namen. Beispiel für Übereinstimmung: 高橋 啓介 und 髙橋啓介 .

      • Japanischer Text : Ein vordefinierter Abgleichstil für japanischen Text, bei dem es sich nicht um die Optionen Adresse, Firmenname und Name handelt. Beispiel für Übereinstimmung: 6ヵ月 und 6ヶ月 .

      • Name : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden Namen. Dieser Stil umfasst Double Metaphone-Algorithmen.

      • Name mit Spitznamen : Ein vordefinierter Abgleichstil für die Suche nach übereinstimmenden Namen. Dieser Stil umfasst Double Metaphone-Algorithmen. Zusätzlich wird bei diesem Stil eine Tabelle mit Spitznamen verwendet, um weitere Duplikate zu identifizieren. Beispiel: Der Name „Andrew“ kann mit „Andy“ und/oder „Drew“ übereinstimmen.

      • Benutzerdefiniert : Ermöglicht es dem Benutzer, eigene Abgleichparameter festzulegen, so dass der Abgleich beliebig wiederverwendet werden kann, ohne die Eigenschaften des Abgleichs neu konfigurieren zu müssen. Natürlich können diese benutzerdefinierten Anpassungsstile auch neu konfiguriert und überschrieben werden oder es können neue benutzerdefinierte Stile erstellt werden.

    3. Klicken Sie auf die Schaltfläche Bearbeiten , um den Abgleichstil nach Bedarf zu bearbeiten. Das Dialogfeld Abgleichoptionen bearbeiten wird angezeigt.

  5. Geben Sie weitere Ausgabefelder und Einstellungen an:

    • Übereinstimmungsbewertung ausgeben : Die Abgleichpunktzahl wird in einem zusätzlichen Ausgabefeld ausgegeben.

    • Generierte Schlüssel ausgeben : Gibt den Schlüssel aus den resultierenden Abgleichstilen in einem zusätzlichen Feld aus.

    • Datensätze ohne Übereinstimmung ausgeben : Datensätze, die mit keinen der Datensätze übereinstimmen, werden als Datensätze ohne Übereinstimmung ausgegeben. Gelegentlich werden nicht übereinstimmende Datensätze in der Ausgabe als übereinstimmend gemeldet, was jedoch ignoriert werden sollte. Dies kann in einer zukünftigen Version behoben werden. Die Option Ignorieren, wenn leer unter der Option zur Bearbeitung von Übereinstimmungen erhält Priorität vor dieser Option.

    • In einer Gruppe bereits enthaltene Datensätze nicht vergleichen : Datensätze, für die bereits eine Übereinstimmung gefunden wurde, werden nicht mehr mit anderen Datensätzen abgeglichen, wodurch der Verarbeitungsaufwand und die Berechnungsdauer reduziert werden. Beispiel: Wenn Datensatz 1 mit Datensatz 2 und Datensatz 3 übereinstimmt, wird Datensatz 2 nicht mit Datensatz 3 verglichen. Verwenden Sie ein nachgeschaltetes Gruppe-erstellen-Tool, um diese Gruppen miteinander zu verknüpfen.

    • Nur Schlüssel generieren : Alle Datensätze werden mit den generierten Schlüsseln als Zusatzfeld zurückgegeben. Es findet kein Abgleich statt.

Weiterführende Informationen zu Anwendungen für das Fuzzy-Übereinstimmung-Tool finden Sie unter  Fuzzy-Übereinstimmungen: Häufig gestellte Fragen .