Textvorverarbeitung

Verwenden Sie die Textvorverarbeitung, um Textdaten zu bereinigen:

Konvertieren Sie Wörter in ihren Wortstamm (mit anderen Worten, lemmatisieren).
Filtern Sie unerwünschte Ziffern, Interpunktion und Stoppwörter heraus.

Alteryx Intelligence Suite - Überblick

Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .

Wichtig

Ab Version 2.,4 entfernt das Textvorverarbeitung-Tool Pronomen korrekt, wenn Sie die Option Standard-Stoppwörter verwenden auswählen. Zuvor hat das Tool Pronomen durch den Ausdruck -PRON- ersetzt.

Sprachunterstützung

Das Textvorverarbeitung-Tool unterstützt Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.

Tool-Komponenten

Das Textvorverarbeitung-Tool hat drei Anker.

Grüner Eingabeanker: Verwenden Sie den grünen Eingabeanker oben, um die Textdaten zu verbinden, die Sie verarbeiten möchten.
Grauer Eingangsanker: Verwenden Sie den grauen Eingangsanker unten, um eine Liste von Stoppwörtern aus einer Liste zu übergeben. Wir empfehlen die Verwendung des CSV-Formats, aber die Liste kann in jedem beliebigen Eingabeformat vorliegen, solange die Stoppwörter in einer einzigen Spalte mit einem Wort pro Zeile aufgeführt sind.
Ausgabeanker: Verwenden Sie den Ausgabeanker, um die verarbeiteten Daten nachgeschaltet weiterzuleiten.

Tool-Konfiguration

Fügen Sie dem Canvas ein Textvorverarbeitung-Tool hinzu.
Verwenden Sie den Anker, um das Textvorverarbeitung-Tool mit den Textdaten zu verbinden, die Sie im Workflow verwenden möchten.
Identifizieren Sie die Sprache der Daten.
Wählen Sie das Textfeld aus, das Sie verwenden möchten.
Klicken Sie auf Ausführen , um den Workflow auszuführen.

Erweiterte Optionen

Das Textvorverarbeitung-Tool verfügt über einige erweiterte Optionen

Textnormalisierung

Um Wörter in ihren Stamm zu konvertieren, aktivieren Sie das Kontrollkästchen In Wortstamm umwandeln (Lemmatisieren) .

Mit dieser Option werden abgeleitete Wörter in ihre Stammwörter umgewandelt. Beispielsweise werden die Wörter „rennend", „gerannt" und „rennt" zum Wort „rennen", nachdem Sie sie lemmatisiert haben. Wenn Sie einen Machine Learning-Algorithmus zur Analyse der Wörter anwenden, erkennt die Engine auf diese Weise, dass alle diese Wörter gruppiert werden sollten.

Filter

Um Ziffern zu entfernen, aktivieren Sie das Kontrollkästchen für Ziffern . Diese Option entfernt bestimmte Zifferntoken (also Zahlen) aus den Daten. Sie sollten diese Option wählen, da Zahlen einige Algorithmen zur Verarbeitung natürlicher Sprache verwirren können.

Um die Interpunktion zu entfernen, aktivieren Sie das Kontrollkästchen Interpunktion . Diese Option entfernt Interpunktion aus den Daten. Sie sollten diese Option wählen, da die Interpunktion einige NLP-Algorithmen verwirren kann. Manche Interpunktions-Token - wie z.B. der Punkt in „Dr." - werden beibehalten, weil sie aussagekräftig sind.

Um Stoppwörter zu entfernen, aktivieren Sie das Kontrollkästchen für Stoppwörter . Einige Stoppwörter werden standardmäßig entfernt. Das Textvorverarbeitung-Tool verwendet standardmäßig das spaCy-Paket. spaCy hat verschiedene Listen von Stoppwörtern für unterschiedliche Sprachen. Sie können die vollständige Liste der Stoppwörter für jede Sprache im spaCy GitHub Repo sehen:

Sie können auch Stoppwörter entfernen, die standardmäßig nicht entfernt werden. Geben Sie die Stoppwörter, die Sie entfernen möchten, in das Textfeld ein. Geben Sie sie in einem durch Komma getrenntes Format ein (d. h. trennen Sie jedes Wort durch Komma und ein Leerzeichen, in dieser Reihenfolge).

Ausgabe

Im Ergebnisraster erstellt das Tool eine neue Spalte in den Daten mit dem Namen der verarbeiteten Spalte sowie dem Bezeichner „_processed".

In diesem Abschnitt: