Zähldaten-Regression-Tool
One-Tool-Beispiel
Es gibt ein One-Tool-Beispiel für das Zähldaten-Regression-Tool. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Verwenden Sie das Zähldaten-Regression-Tool, um ein Regressionsmodell zu erstellen, das ein Feld von Interesse (eine Zielvariable) mit einem nicht negativen Ganzzahlwert (0, 1, 2, 3 usw.) zu einem oder mehreren Feldern in Beziehung setzt, von denen erwartet wird, dass sie einen Einfluss auf die Zielvariable haben, und die oft als Prädiktorvariablen bezeichnet werden.
Häufig auftretende Anwendungsfälle sind zum Beispiel die Anzahl der Besuche eines Kunden bei einem spezifischen Restaurant während eines bestimmten Monats oder die Anzahl der Telefonnummern, die mit einem spezifischen Mobilfunkkonto verbunden sind. Bei diesen Anwendungsfällen führt die Verwendung eines linearen Modells zu verzerrten Schätzungen. Die beiden bekanntesten Regressionsmodelle sind das Poisson-* und das negative Binomialmodell**. Das Zähldaten-Regressionsmodell ermöglicht Benutzern, mit einer Reihe von Prädiktorvariablen die geschätzte Anzahl von Ereignissen (z. B. Ladenbesuchen) für eine Beobachtungseinheit (z. B. einen Kunden) abzurufen.
Das Poisson-Regressionsmodell unterstellt eine enge Beziehung zwischen dem Mittelwert und der Varianz des Zielfelds (insbesondere, dass sie einander gleich sind). Um dies zu berücksichtigen, wurde das Quasi-Poisson-Modell entwickelt. Das Quasi-Poisson-Modell lässt eine vom Mittelwert abweichende Varianz zu, hat aber den Nachteil, dass es keine definierten Informationskriterien (wie AIC) gibt, so dass ein Quasi-Poisson-Modell nicht als Ausgangspunkt für die schrittweise Variablenauswahl verwendet werden kann. Das negative Binomialregressionsmodell verfügt über wohldefinierte Informationskriterien und lässt eine Differenz zwischen Mittelwert und Varianz der zugrunde liegenden Verteilung zu, weshalb es in der Regel bevorzugt wird. Beachten Sie, dass ein Poisson-Regressionsmodell, das unter Verwendung von Daten geschätzt wird, bei denen Mittelwert und Varianz voneinander abweichen, unverzerrte Schätzungen des Mittelwerts und der entsprechenden Modellkoeffizienten liefert, die Tests der statistischen Signifikanz jedoch verzerrt sind.
Bei diesem Tool wird die Open-Source-Funktion „R glm“ für die Modellschätzung verwendet, wenn die Eingabedaten aus einem regulären Alteryx-Datenstrom stammen. Stammt die Eingabe aus einem XDF-Eingabe-Tool oder XDF-Ausgabe-Tool, wird die Funktion „Revo ScaleR rxGlm“ für die Modellschätzung verwendet. Der Vorteil, der auf Revo ScaleR basierenden Funktion besteht darin, dass sie die Analyse sehr viel größerer (speicherintensiver) Datasets ermöglicht. Dem gegenüber stehen jedoch der Zusatzaufwand zum Erstellen einer XDF-Datei, die fehlende Möglichkeit, eine Modelldiagnoseausgabe zu erstellen, die bei den Open-Source-R-Funktionen verfügbar ist, und dass lediglich ein Poisson-Regressionsmodell erstellt werden kann.
Dieses Tool verwendet das R-Tool. Gehen Sie zu „Optionen“ „Prognose-Tools herunterladen“ und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Eingabe verbinden
Verbinden Sie einen Alteryx-Datenstrom oder einen XDF-Metadatenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prädiktorfeldern.
Tool-Konfiguration
Zähldaten-Regression: Konfiguration-Registerkarte
Modellname: Jedes Modell muss über einen Namen verfügen, um es später identifizieren zu können. Modellnamen müssen mit einem Buchstaben beginnen und können Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prädiktorvariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen verursachen. Spalten, die eindeutige Kennungen enthalten wie Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten in Statistikanalysen nicht verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Modelltyp: Wählen Sie Poisson-, Quasi-Poisson- oder negatives Binomialmodell aus. Bei Auswahl von „Negativ binomial“ können Sie den Wert von Theta angeben (der eng mit der Modellvarianz verbunden ist). Den besten Theta-Wert, der anhand der Daten geschätzt werden kann, erhalten Sie mit der Standardoption „Auto“.
Stichprobengewichtung bei der Modellschätzung anwenden? (Optional): Aktivieren Sie das Kontrollkästchen und wählen Sie dann ein Gewichtungsfeld aus dem Datenstrom, um ein Modell zu schätzen, das die Gewichtung von Stichproben verwendet. Diese Option ist nicht verfügbar, wenn das negative Binomialmodell als Modelltyp ausgewählt ist und der Theta-Wert mit der Option Auto ermittelt wird. Die Option ist verfügbar, wenn Sie einen spezifischen Theta-Wert angeben (dieser kann auf einer ersten Modellausführung basieren, bei der keine Stichprobengewichtung verwendet wurde).
Diagramm-Optionen-Registerkarte
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Ausgabe anzeigen
O-Anker: Besteht aus einer Tabelle des serialisierten Modells mit seinem Modellnamen.
R-Anker: Besteht aus den Berichtsausschnitten, die vom Zähldaten-Regression-Tool generiert werden: einer statistischen Zusammenfassung, einer Varianzanalyse vom Typ II (ANOD) und allgemeiner diagnostischer Diagramme. Die Tabelle der Typ-II-Varianzanalyse und die allgemeinen diagnostischen Diagramme werden nicht erzeugt, wenn die Modelleingabe aus einem XDF-Ausgabe- oder XDF-Eingabe-Tool stammt.
* https://de.wikipedia.org/wiki/Poisson-Verteilung
** https://de.wikipedia.org/wiki/Negative_Binomialverteilung