Skip to main content

Fuzzy-Übereinstimmung: Abgleichoptionen bearbeiten

Verwenden Sie die Bearbeiten -Schaltfläche im Konfigurationsfenster für das Fuzzy-Übereinstimmung-Tool , um das Dialogfeld Abgleichoptionen bearbeiten aufzurufen.

Der Abgleichstil definiert vorab die Methode für die Suche nach Übereinstimmungen zwischen Datensätzen einer Eingabedatei. Die einzelnen Abgleichstile werden auf der Hilfeseite für das Fuzzy-Übereinstimmung-Tool  näher erläutert.

Abgleichstil

Alle vordefinierten oder benutzerdefinierten Abgleichstile sind in dieser Liste aufgeführt. Weitere Spezifikationen werden nach dem festgelegten Abgleichstil im Dialogfeld vorgenommen.

Wenn Sie einen vordefinierten Abgleichstil bearbeiten, ändert sich der Name in der Dropdown-Liste in „Benutzerdefiniert“. Die in diesem benutzerdefinierten Abgleichstil spezifizierten Einstellungen werden mit dem Workflow gespeichert.

Fügen Sie einen neuen benutzerdefinierten Abgleichstil hinzu, anstatt die Standardoptionen zu löschen oder zu bearbeiten.

  • Um einen Abgleichstil zu löschen, wählen Sie ihn zuerst in der Dropdown-Liste aus und dann Löschen .

  • Geben Sie einen neuen Namen ein, und wählen Sie OK , um einen Abgleichstil hinzuzufügen.

Vorverarbeitung

Die Vorverarbeitung beschreibt ein Verfahren, das vor der Schlüssel generieren und der Abgleichfunktion durchgeführt wird. Durch die Vorverarbeitung werden in der Regel bessere Übereinstimmungen erzielt. Die Liste enthält die folgenden Auswahlmöglichkeiten:

  • Keine : Es wird keine Vorverarbeitung ausgeführt.

  • Interpunktion ignorieren : Alle Interpunktionszeichen im angegebenen Datenfeld werden ignoriert, während das Tool Übereinstimmungen ermittelt.

  • Interpunktion und Anreden ignorieren: : Alle Interpunktionszeichen sowie Anreden wie Mr, Ms und Mrs innerhalb des angegebenen Datenfelds werden bei der Ermittlung von Übereinstimmungen ignoriert.

  • Interpunktion ignorieren & AND, OF & THE : Alle Interpunktionszeichen sowie alle Instanzen der Wörter „and“, „of“ und „the“ innerhalb des angegebenen Datenfeldes werden bei der Ermittlung von Übereinstimmungen ignoriert.

  • Interpunktion ignorieren & Units aus US-Adressen entfernen : Alle Interpunktionszeichen und Unit-Nummern innerhalb des angegebenen Datenfeldes werden bei der Ermittlung von Übereinstimmungen ignoriert.

  • Japanischen Text tokenisieren : Mit dieser Option wird eine Unicode-Normalisierung durchgeführt und es werden alle Zeichen in Katakana konvertiert.

  • Japanischen Text tokenisieren & japanische Unternehmenssuffixe ignorieren : Durch diese Option werden auch gängige japanische Unternehmenssuffixe ignoriert. Beispiel: ㈱.

  • Japanischen Text tokenisieren & japanische Adressen normalisieren : Durch diese Option werden auch japanische Adressen standardisiert. Beispiel: Von 今津3丁目14番地19 to 今津3-14-19.

Vorverarbeitung manuell bearbeiten

Der Benutzer kann die Vorverarbeitung durch Bearbeiten der Datei FuzzyMatchStyles.xml anpassen. Diese Datei befindet sich im Verzeichnis „Alteryx-Runtime“: \Programme\Alteryx\bin\R\RuntimeData\FuzzyMatch . Sie sollten diese Datei nur bearbeiten, wenn Sie mit XML und regulären Ausdrücken vertraut sind.

Schlüssel generieren

„Schlüssel generieren" ist die Methode, mit der Übereinstimmungen ermittelt werden.

Alteryx liest das spezifizierte Feld und weist den Komponenten des Felds Schlüssel zu. Sobald alle Schlüssel generiert sind, vergleicht Alteryx die verketteten Schlüssel für jedes Abgleichfeld. Wenn die generierten Schlüssel für zwei Datensätze gleich sind, wird eine potenzielle Übereinstimmung erkannt und das Paar geht zur nächsten Phase des Abgleichprozesses über. Die Funktion enthält die folgenden Auswahlmöglichkeiten:

  • Keine : Die Schlüssel für dieses Feld werden bei der Entscheidung, welche Datensätze übereinstimmen, berücksichtigt.

  • Nur Ziffern : Nur Datensätze mit denselben Ziffern im spezifizierten Feld ergeben eine Übereinstimmung. Beispiel: 1-(800)555-1234 entspricht 800-555-1234. Zeichen, die keine Ziffern sind, werden ignoriert. Die Ziffern stimmen von der letzten (4) zur ersten Ziffer (8 oder 1) überein. In diesem Beispiel muss die maximale Schlüssellänge auf „10“ festgelegt werden, damit die vorangestellte „1“ ignoriert wird.

  • Double Metaphone : Der bevorzugte Algorithmus ist Double Metaphone. Dabei handelt es sich um einen Algorithmus zur phonetischen Kodierung von englischen Wörtern (und Fremdwörtern, die häufig in der englischen Sprache vorkommen), indem diese auf 12 Konsonanten reduziert werden. Dadurch werden durch Rechtschreibfehler verursachte Abgleichprobleme verringert. Double Metaphone ist die bevorzugte Methode für Übereinstimmungen basierend auf Lauten. Für Wörter, die auf zwei Arten ausgesprochen werden können (z. B. Fremdwörter), werden zwei Schlüssel zurückgegeben. Weitere Informationen erhalten Sie unter Double Metaphone . Mit der Methode „Double Metaphone“ können Sie eine maximale Schlüssellänge festlegen. Die maximale Schlüssellänge für Double Metaphone beträgt 100.

    Maximale Schlüssellänge

    Beachten Sie, dass das Einstellen einer hohen maximalen Schlüssellänge zu einer Beeinträchtigung der Leistung führen kann.

  • Double Metaphone mit Ziffern : Verwendet den Double Metaphone-Algorithmus und bezieht zusätzlich Ziffern mit ein. Wenn in der Zeichenfolge Ziffern vorhanden sind, besteht der Schlüssel aus den Ziffern des ersten Token. In der Zeichenfolge „1234 5th St“ ist beispielsweise „1234“ der Schlüssel.

  • Soundex : Ein Algorithmus zum phonetischen Kodieren von Nachnamen. Der Code besteht aus dem ersten Buchstaben des Nachnamens und aus bis zu drei Ziffern, wobei jede Ziffer einem von sechs Konsonantenlauten entspricht. Dadurch werden durch Rechtschreibfehler verursachte Abgleichprobleme verringert. Der Algorithmus wurde zum Codieren von Namen in US-amerikanischen Volkszählungsdatensätzen entwickelt. Für europäische Namen ist der Standardalgorithmus am besten geeignet. Für andere Kulturen wurden weitere Varianten des Algorithmus entwickelt. Weitere Informationen erhalten Sie unter Soundex .

    Ersetzen vorangestellter Buchstaben : Alteryx ersetzt diese vorangestellten Buchstaben und Buchstabenkombinationen automatisch, bevor der Abgleichschlüssel generiert wird:

    Vorangestellte Buchstaben

    Ersetzung

    AV

    AF

    AH

    A

    AW

    A

    CAAN

    TAAN

    DG

    G

    D

    G

    HA

    A

    KN

    K

    K

    C

    MAC

    MC

    M

    N

    NST

    NS

    PF

    F

    PH

    F

    Q

    G

    SCH

    SH

    Z

    S

  • Soundex mit Ziffern : Verwendet denselben Soundex-Algorithmus und bezieht zusätzlich Ziffern mit ein. Wenn in der Zeichenfolge Ziffern vorhanden sind, besteht der Schlüssel aus den Ziffern des ersten Token.

  • Gesamtes Feld (Groß-/Kleinschreibung nicht beachten) : Nur Datensätze, bei denen das gesamte Feld übereinstimmt, werden abgeglichen. Groß-/Kleinschreibung wird nicht berücksichtigt.

  • Nur alphanumerisch (Groß-/Kleinschreibung wird nicht berücksichtigt) : Bezieht nur alphanumerische Zeichen in den Abgleich mit ein. Groß-/Kleinschreibung wird nicht berücksichtigt.

  • Adressnummer + Soundex : Entfernt die Adressnummer aus einer Zeichenfolge und wendet den Soundex-Algorithmus auf den Rest des Feldes an. Der Soundex-Code wird dann an die Adressennummer angehängt, um einen eindeutigen Schlüssel zu erstellen.

  • Zur Vorbereitung von japanischem Text für die Algorithmen Soundex und Double Metaphone, die nur mit lateinischen Zeichen funktionieren, werden die japanischen Zeichen durch diese Methoden zuerst in Romaji transkribiert:

    • Romaji

    • Romaji Soundex

    • Romaji Soundex mit Adressnummer

    • Romaji Soundex mit Ziffern

    • Romaji Double Metaphone

    • Romaji Double Metaphone mit Ziffern

Schlüssel für jedes Wort generieren

„john smith“ und „smith john“ ergeben eine potenzielle Übereinstimmung, obwohl die Wörter nicht dieselbe Reihenfolge aufweisen.

  • Keine Schlüssel für diese Wörter generieren : Legen Sie Wörter fest, die aus der Schlüsselzuweisung ausgeschlossen werden sollen. Dies kann die Verarbeitungszeit reduzieren, da die Anzahl möglicher Übereinstimmungen begrenzt wird.

  • Keine Schlüssel für Wörter mit nur einem Buchstaben generieren : Schließt Wörter, die nur aus einem Buchstaben bestehen, aus der Schlüsselzuweisung aus. Dies kann die Verarbeitungszeit reduzieren, da die Anzahl möglicher Übereinstimmungen begrenzt wird.

  • Ignorieren, wenn leer : Ignoriert leere Werte im angegebenen Abgleichfeld. Wenn das Feld leer ist, wird kein Schlüssel generiert und der Datensatz verworfen.

  • Maximale Schlüssellänge : Geben Sie die maximale Länge des Schlüssels für den Abgleich an.

Abgleichfunktion

Eine Abgleichfunktion ermöglicht Ihnen, die Suche nach Übereinstimmungen detaillierter festzulegen. Die ermittelten Übereinstimmungen werden bewertet. Die Schlüssel müssen genau übereinstimmen. Auswahlmöglichkeiten:

  • Keine – nur Schlüsselabgleich : Berücksichtigt nur die für die Schlüsselgenerierung festgelegten Spezifikationen.

  • Levenshtein-Distanz : Die kleinste Anzahl von Einfügungen, Löschungen und Ersetzungen, die erforderlich ist, um eine Zeichenfolge oder einen Baum in einen anderen zu verwandeln. Bei Auswahl der Levenshtein-Distanz ist die Trefferquote aufgrund von Unterschieden deutlich geringer. Weitere Informationen erhalten Sie unter Levenshtein-Distanz . Bei der Levenshtein-Distanz stehen die folgenden Optionen zur Auswahl:

    • Zeichen: Levenshtein-Distanz

    • Zeichen (Keine Leerzeichen): Levenshtein-Distanz

    • Wörter: Levenshtein-Distanz

    • Wörter und Ziffern: Levenshtein-Distanz

  • Jaro-Distanz : Ein Maß für die Ähnlichkeit zwischen zwei Zeichenfolgen. Das Jaro-Maß ist die gewichtete Summe des Prozentsatzes der übereinstimmenden Zeichen und der notwendigen Transpositionen. Die Jaro-Distanz ist bei Unterschieden in den Zeichenfolgen toleranter als die Levenshtein-Distanz. Weitere Informationen erhalten Sie unter Jaro-Winkler . Bei Jaro-Winkler stehen die folgenden Optionen zur Auswahl:

    • Zeichen: Jaro-Distanz

    • Zeichen (Keine Leerzeichen): Jaro-Distanz

    • Wörter: Jaro-Distanz

    • Wörter und Ziffern: Jaro-Distanz

  • Beste Bewertung aus Jaro und Levenshtein : Es werden beide Abgleichtypen analysiert und das jeweils beste Ergebnis wird verwendet. Zu den besten Bewertungen von Jaro und Levenshtein stehen folgende Optionen zur Auswahl:

    • Zeichen: Beste Bewertung aus Jaro- und Levenshtein-Distanz

    • Zeichen (Keine Leerzeichen): Beste Bewertung aus Jaro & Levenshtein-Distanz

    • Wörter: Beste Bewertung aus Jaro und Levenshtein-Distanz

    • Wörter und Ziffern: Beste Bewertung aus Jaro und Levenshtein-Distanz

Funktionstypen

  • Wortbasierte Funktionen (Abgleichfunktion beginnt mit Wörtern: ) analysieren alle Wörter im angegebenen Feld, unabhängig von der Reihenfolge der Wörter.

  • Nicht-wortbasierte Funktionen vergleichen die Zeichenfolge als Ganzes.

  • Bei Funktionen mit Wörtern und Ziffern müssen für eine Übereinstimmung alle Token, die Ziffern enthalten, auf beiden Seiten vorhanden sein. Diese Option wird in der Regel für Adressen verwendet.

Optionen für wortbasierte Funktionen

  • Bei Verwendung der wortbasierten Übereinstimmung, auch Folgendes verwenden : Sie können eine zusätzliche Abgleichmethode angeben, mit der eine weitere Bewertung erzeugt und die jeweils beste Bewertung verwendet wird. Hierdurch erübrigt sich das Ausführen von zwei Instanzen für das Fuzzy-Übereinstimmung-Tool:

    • Keine : Verwendet nur die wortbasierte Bewertung.

    • Zeichen : Verwendet die Bewertung für die wortbasierte Übereinstimmung zusätzlich zur Zeichenabgleichfunktion. Es werden zwei Bewertungen erzeugt, wobei die beste Bewertung zum Ermitteln der Übereinstimmung verwendet wird.

    • Zeichen (ohne Leerzeichen) : Wie oben, Leerzeichen werden jedoch beim Ermitteln der zeichenbasierten Übereinstimmung ignoriert.

  • Worthäufigkeitsstatistik (Nur Wortübereinstimmung) : Sie können eine Suche nach Worthäufigkeit basierend auf einer vordefinierten Statistik angeben. Bei Auswahl dieser Option erhalten in der Datenbank vorhandene Wörter eine geringere Gewichtung, wenn diese in den eingehenden Daten vorhanden sind. Die Bewertung der Übereinstimmung wird entsprechend angepasst. Folgende Optionen sind verfügbar:

    • [Keine] : Es wird keine Worthäufigkeitsstatistik verwendet.

    • Name : Enthält häufig vorkommende Wörter in einem Namensfeld. Die Häufigkeit steht in umgekehrtem Verhältnis dazu, wie wichtig diese Wörter für die Bewertung der Übereinstimmung sind.

    • US-Adresse : Enthält häufig vorkommende Wörter im Feld „US-Adresse“. Die Häufigkeit steht in umgekehrtem Verhältnis dazu, wie wichtig diese Wörter für die Bewertung der Übereinstimmung sind.

    • US-Unternehmen : Enthält häufig vorkommende Wörter im Feld „Unternehmensname“ (Company Name). Die Häufigkeit steht in umgekehrtem Verhältnis dazu, wie wichtig diese Wörter für die Bewertung der Übereinstimmung sind.

      Beispiel

      Es werden die Wörter „Albert Commette“ und „Albert Commette MD“ abgeglichen.

      Die Tabelle mit der Worthäufigkeitsstatistik für „Name“ enthält das Wort „MD“. Wenn Worthäufigkeit: Name angegeben wird, ist das Abgleichergebnis ungefähr fünf Punkte höher, als wenn „Worthäufigkeit: Name“ nicht angegeben wird.

      Speicherort der Worthäufigkeitsstatistik

      Worthäufigkeitsstatistiken sind in den Alteryx Datenbank-Dateien (YXDB) enthalten und befinden sich im Verzeichnis „RuntimeData“:

      \Programme\Alteryx\bin\RuntimeData\FuzzyMatch\

      Sie können auch eigene Worthäufigkeitsstatistiken erstellen, indem Sie den Workflow CollectStats.yxmd bearbeiten, der sich ebenfalls in diesem Verzeichnis befindet.

    • Spitzname/Abkürzungstabelle (nur Wortübereinstimmung) : Verwenden Sie eine Tabelle mit häufigen Spitznamen zum Abgleich, um die Suche nach Duplikaten zu verfeinern. Verwenden Sie diese Option bei Feldern, die entweder nur den Vornamen oder sowohl den Vor- als auch den Nachnamen enthalten. So fügen Sie weitere Spitznamen und Abkürzungen hinzu:

      • Aktualisieren Sie die Common Nicknames.yxdb-Datenbank unter:

        \Programme\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\

      • Sämtliche .yxdb-Dateien in diesem Verzeichnis werden im Dropdown-Menü im Abschnitt „Nicknames" (Spitznamen) des Fuzzy-Übereinstimmung-Tools zur Auswahl angezeigt.

    • Abzug : Legen Sie den Abzugsprozentsatz fest, der angewendet wird, wenn ein Abgleich mit Daten aus der Tabelle mit Spitznamen durchgeführt wird. Der Standardwert ist „15 %“. Es wird ein Abzug empfohlen, da eine Übereinstimmung mit einem Spitznamen eine weitere potenzielle Fehlerquelle ist. Der Abzugsprozentsatz wird vor dem Vergleich mit dem Schwellenwert der Übereinstimmung vom Übereinstimmungswert subtrahiert.

    • Schwellenwert für Übereinstimmungen : Legen Sie den zulässigen Unsicherheitsprozentsatz fest, um eine Übereinstimmung für ein bestimmtes Feld auszugeben. Wenn für Feld 1 der Schwellenwert von 60 % gilt und der Konfidenzwert lediglich 55 % beträgt, wird der Datensatz ignoriert.

    • Gewichtung der Übereinstimmung : Führt zu einer besseren oder schlechteren Bewertung basierend auf der Bedeutung und der zu berücksichtigenden relativen Unterschiede.

      Wenn „Company Name" (Unternehmensname) doppelt so wichtig ist wie „Contact Name" (Kontaktname), können Sie die Gewichtung entsprechend festlegen. In diesem Fall sollte die Gewichtung der Übereinstimmung für „Company Name“ sollte doppelt so hoch sein, wie die Gewichtung für „Contact Name“. Diese Gewichtung wird bei der Berechnung der Gesamtbewertung der Übereinstimmung verwendet.

      Weitere Informationen zu Anwendungsfällen für das Fuzzy-Übereinstimmung-Tool finden Sie in Fuzzy-Übereinstimmung: Häufig gestellte Fragen .