Naiver-Bayes-Klassifikator-Tool
One-Tool-Beispiel
Für den naiven Bayes-Klassifikator gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Der naive Bayes-Klassifikator erstellt ein binomiales oder multinomiales probabilistisches Klassifizierungsmodell der Beziehung zwischen einer Reihe von Prognosevariablen und einer kategorialen Zielvariablen. Der naive Bayes-Klassifikator geht davon aus, dass alle Prognosevariablen voneinander unabhängig sind und prognostiziert anhand einer Stichprobeneingabe eine Wahrscheinlichkeitsverteilung über eine Reihe von Klassen, wodurch die Wahrscheinlichkeit der Zugehörigkeit zu jeder Klasse der Zielvariablen berechnet wird.
Einer der Hauptvorteile des naiven Bayes-Klassifikators besteht darin, dass er auch mit einem kleinen Trainingsset gute Ergebnisse erzielt. Dieser Vorteil ergibt sich aus der Tatsache, dass der naive Bayes-Klassifikator durch den Mittelwert und die Varianz jeder Variablen unabhängig von allen anderen Variablen parametrisiert ist. Bei vielen Maximum-Likelihood-Klassifizierungsproblemen wird die Kovarianzmatrix benötigt, um die prognostizierten Wahrscheinlichkeiten zu schätzen, aber kleine Trainingssets können zu einer sehr variablen Kovarianzmatrix führen, die wiederum die Leistung der Maximum-Likelihood-Schätzung (MLE) beeinträchtigen kann. Da der naive Bayes-Klassifikator nur die Berechnung eindimensionaler Varianzen für jeden Prädiktor erfordert, wird die Kovarianzmatrix nicht benötigt, und somit ist der MLE nicht von den Problemen eines kleineren Trainingssets betroffen.
Der naive Bayes-Klassifikator eignet sich für die Kategorisierung einer Reihe von Beobachtungen nach einer Zielvariablen, insbesondere dann, wenn nur ein kleines Trainingsset und eine kleine Anzahl von Prädiktoren verwendet werden. Der naive Bayes-Klassifikator entwickelt ein Modell zur Prognose der Wahrscheinlichkeit, dass eine gegebene Beobachtung zu jeder Klasse der Zielvariablen gehört, unter Verwendung eines ersten Trainingssets.
Ein einfaches Beispiel wäre die Prognose, ob jemand, der ein neues Fahrzeug least, dieses nach Ablauf des Leasingvertrags kaufen wird, wobei sowohl die Eigenschaften des Fahrzeugs (z. B. Pickup/Sedan/SUV) als auch des Kunden (z. B. Geschlecht, Alter usw.) berücksichtigt werden. Der naive Bayes-Klassifikator würde es dem Anwender ermöglichen, künftige Kandidaten entsprechend dem aus dem Trainingsset erstellten Modell zu „bewerten“. Dieses Bewertungsverfahren würde zu einer Reihe von Wahrscheinlichkeiten führen, eine für den Kauf und eine für den Verzicht auf den Kauf am Ende des Leasingvertrags.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Tool-Konfiguration
Erforderliche Parameter
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll. Dieses Ziel muss ein Zeichenfolgentyp sein.
Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Laplace-Glättung: Wählen Sie einen positiven Wert als Glättungsparameter aus. Die Standardeinstellung ist 0. Die Laplace-Glättungsfunktion ermöglicht es dem Benutzer, die Daten zu „glätten", indem Klassen-/Eigenschaftskombinationen berücksichtigt werden, die entweder vollständig im Trainingsset fehlen oder anderweitig in der Häufigkeit unterrepräsentiert sind und denen daher eine Wahrscheinlichkeit von entweder Null zugewiesen wird oder zumindest ungewöhnlich niedrig (je nach Umständen). Dies ist von Vorteil, wenn Sie ein Klassifizierungsmodell mit einem kleinen Trainingsset erstellen wollen, das möglicherweise keine ausreichend repräsentative Stichprobe der gesamten Datenmenge darstellt.
Diagramm-Optionen
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Zoll aus: 1X (96 dpi), 2x (192 dpi) oder 3X (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Ausgabe anzeigen
O-Anker: Objekt. Besteht aus einer Tabelle des serialisierten Modells mit seinem Modellnamen.
R-Anker: Bericht. Besteht aus den vom naiven Bayes-Klassifikator-Tool generierten Berichtsausschnitten: eine allgemeine Modellzusammenfassung sowie Haupteffektdiagramme für jede Klasse der Zielvariablen.