Lineare-Regression-Tool
One-Tool-Beispiel
Es gibt ein One-Tool-Beispiel für das Zähldaten-Regression-Tool. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Das Lineare-Regression-Tool erstellt ein einfaches Modell zur Schätzung von Werten oder zur Auswertung von Beziehungen zwischen Variablen basierend auf einer linearen Beziehung.
The 2 main types of linear regression are non-regularized and regularized:
Die nicht regularisierte lineare Regression erzeugt lineare Modelle, die die Summe der quadratischen Fehler zwischen den tatsächlichen und den prognostizierten Werten der Zielvariablen der Trainingsdaten minimiert.
Die regularisierte lineare Regression gleicht dieselbe Minimierung der Summe der quadratischen Fehler mit einem Penalty-Term für die Größe der Koeffizienten aus und erzeugt tendenziell einfachere Modelle, die weniger zur Überanpassung neigen.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
R Packages Used by Linear Regression
R Package | Typ | Paketbeschreibung |
---|---|---|
AlteryxPredictive | Benutzerdefiniert | This package provides custom functions and calls CRAN and custom R packages. |
AlteryxRDataX | Benutzerdefiniert | Bietet Konnektivität zwischen Alteryx und R sowie eine Reihe von Funktionen, die die Interaktion zwischen Alteryx und R erleichtern. |
AlteryxRviz | Benutzerdefiniert | Dieses Paket wurde als veraltet ausgeschieden. Es bietet Funktionen, die interaktive Visualisierungen für die Prognosetools in Alteryx (Zeitreihen, Netzwerkanalyse) ansteuern. |
FlightDesk | Benutzerdefiniert | FlightDesk ist ein R-Paket, das die Erstellung von interaktiven Dashboards für die Berichtausgabe von Prognosemodellen vereinfacht. |
Tool-Konfiguration für die Standardausführung
Eingabe verbinden
Verbinden Sie einen Alteryx-Datenstrom oder einen XDF-Metadatenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prädiktorfeldern.
Anmerkung
XDF is MRC/MMLS format.
Wenn die Eingabedaten aus einem Alteryx-Datenstrom stammen, werden für die Modelleinschätzung die Open-Source-R-Funktionen lm, „glmnet“ und „cv.glmnet“ verwendet (aus dem Paket glmnet).
Stammt die Eingabe aus einem Tool „XDF-Ausgabe“-Tool oder einem Tool „XDF-Eingabe“-Tool, wird für die Modelleinschätzung die RevoScaleR-Funktion „rxLinMod“ verwendet. Der Vorteil der Verwendung der auf RevoScaleR basierenden Funktion besteht darin, dass viel größere (unzureichender Arbeitsspeicher) Datensätze analysiert werden können. Dem gegenüber stehen jedoch der Zusatzaufwand zum Erstellen einer XDF-Datei und fehlende Möglichkeit, eine Modelldiagnoseausgabe zu erstellen, die bei den Open-Source-R-Funktion verfügbar ist.
Tool-Konfiguration
Modellname: Geben Sie einen Namen für das Modell ein, um das Modell identifizieren zu können, wenn in anderen Tools darauf verwiesen wird. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt (.) und Unterstrich (_) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariable auswählen: Wählen Sie Daten aus, für die eine Prognose erstellt werden soll. Eine Zielvariable wird auch Antwortvariable oder abhängige Variable genannt.
Prädiktorvariablen auswählen: Wählen Sie die zu verwendenden Daten aus, um den Wert der Zielvariablen zu beeinflussen. Eine Prädiktorvariable ist auch bekannt als Funktionsvariable oder unabhängige Variable. Es können beliebig viele Prädiktorvariablen ausgewählt werden, die Zielvariable sollte jedoch nicht gleichzeitig eine Prädiktorvariable sein. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Klicken Sie auf Anpassen, um die Einstellungen Modell, Kreuzvalidierung und Plots zu ändern.
Anpassen des Modells
Lässt eine Konstante aus und lässt die Regressionsgerade durch den Ursprung verlaufen
Wählen Sie eine Variable aus, über die beim Erstellen eines Kleinste-Quadrate-Modells die Wichtigkeit der einzelnen Datensätze bestimmt wird.
Wählen Sie diese Option aus, um dieselbe Minimierung der quadratischen Fehler mit einem Abzugsterm in der Größe der Koeffizienten auszugleichen und ein einfacheres Modell zu erzeugen.
Wählen Sie einen Wert zwischen 0 (Ridge-Regression) und 1 (Lasso) aus, um die Gewichtung des Koeffizienten zu messen.
Wählen Sie diese Option aus, damit alle Variablen basierend auf dem verwendeten Algorithmus dieselbe Größe haben.
Use cross-validation to determine model parameters: Select to perform cross-validation and obtain various model parameters
Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Wählen Sie den Modelltyp zum Bestimmen der Koeffizienten aus.
Einfacheres Modell
Modell mit weniger Standardfehlern in der Stichprobe
Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des für die Zuweisung von Datensätzen zu Aufteilungen verwendeten Startwerts aus. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.
Anpassen der Kreuzvalidierung
Use cross-validation to determine estimates of model quality: Select to perform cross-validation and obtain various model quality metrics and graphs. Einige Metriken und Diagramme werden in der statischen Ausgabe R angezeigt, während andere in der interaktiven Ausgabe I erscheinen.
Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Wählen Sie die Anzahl Wiederholungen für das Kreuzvalidierungsverfahren aus. Die Aufteilungen werden in jedem Test anders ausgewählt und für die Gesamtergebnisse der einzelnen Tests wird ein Durchschnittswert gebildet. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des für die Zuweisung von Datensätzen zu Aufteilungen verwendeten Startwerts aus. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.
Anpassen der Plots
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Zeigt bei der Verwendung der regularisierten Regression Diagramme an
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O-Anker: Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R-Anker: Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.
I (Interactive): Displays a dashboard of interactive visualizations to support further data-discovery and model exploration.
Tools für In-DB-Verarbeitung konfigurieren
Das Tool „Lineare Regression“ unterstützt die datenbankinterne Verarbeitung in Oracle, Microsoft SQL Server 2016 und Teradata. Weitere Informationen zu In-DB-Support und -Tools finden Sie unter In-Datenbank – Übersicht.
Wenn ein „Lineare Regression“-Tool im Arbeitsbereich platziert wird, in dem sich ein „In-DB“-Tool befindet, wechselt das Tool automatisch zur In-DB-Version. Um die Version des Tools zu ändern, klicken Sie mit der rechten Maustaste auf das Tool, zeigen Sie auf „Tool-Version auswählen“ und klicken Sie anschließend auf eine andere Version des Tools. Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.
Eingabe verbinden
Verbinden Sie einen In-Database-Datenstrom, der ein Zielfeld von Interesse zusammen mit einem oder mehreren möglichen Prädiktorfeldern enthält.
Wenn die Eingabe aus einem SQL-Server- oder Teradata-In-DB-Datenstrom stammt, wird die Microsoft Machine Learning Server-Funktion „rxDForest“ (aus dem Paket RevoScaleR) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern sowohl der lokale Rechner als auch der Server mit Microsoft Machine Learning Server konfiguriert wurden, und kann zu einer erheblichen Leistungssteigerung führen.
Wenn die Eingabe aus einem Oracle-In-Database-Datenstrom stammt, wird die Oracle R Enterprise-Funktion ore.Im (aus dem Paket OREmodels) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern der lokale PC und der Server mit Oracle R Enterprise konfiguriert wurden. Zudem kann die Leistung dadurch deutlich verbessert werden.
Für einen In-DB-Workflow in einer Oracle-Datenbank ist die vollständige Funktionalität des resultierenden Modellobjekt-Abwärtsstroms nur dann gewährleistet, wenn das Tool „Lineare Regression“ direkt über ein Tool „In-DB verbinden“ mit einer einzelnen vollständigen ausgewählten Tabelle verbunden ist oder wenn unmittelbar vor dem Tool „Lineare Regression“ ein Tool „In-DB-Daten schreiben“ verwendet wird, um die Tabelle mit den geschätzten Daten in der Datenbank zu speichern. Oracle R Enterprise nutzt die Tabelle mit den geschätzten Daten zur Bereitstellung der vollständigen Modellobjektfunktionalität, beispielsweise für die Berechnung der Prognoseintervalle.
Konfiguration
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Sie können entweder einen Namen angeben oder automatisch einen Namen generieren lassen. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Aktivieren Sie dieses Element, wenn Sie im Modell eine Konstante auslassen möchten. Dies sollten Sie dann tun, wenn es einen expliziten Grund dafür gibt.
Stichprobengewichtung bei der Modelleinschätzung anwenden: Klicken Sie auf das Kontrollkästchen, und wählen Sie dann ein Gewichtungsfeld im Datenstrom aus, um ein Modell abzuschätzen, das eine Stichprobengewichtung anwendet. Ein Feld wird sowohl als Prognose- als auch als Gewichtungsvariable verwendet, wenn die Gewichtungsvariable im Modellaufruf in der Ausgabe erscheint und ihr die Zeichenfolge „Right_“ vorangestellt ist.
Diese Option ermöglicht die Konfiguration zusätzlicher Optionen, die nur für die Oracle-Plattform relevant sind.
Bewirkt das Speichern des geschätzten Modellobjekts in der Datenbank. Diese Option wird empfohlen, damit die Modellobjekte und Schätztabellen zusammen unter einem zentralen Verzeichnis in der Oracle-Datenbank gespeichert werden.
Microsoft R Server benötigt zusätzliche Konfigurationsinformationen über die spezielle zu verwendende Teradata-Plattform – insbesondere die Pfade auf dem Teradata-Server zu den binären ausführbaren Dateien von R und den Speicherort, unter dem die von Microsoft R Server verwendeten temporären Dateien geschrieben werden können. Diese Informationen müssen von einem lokalen Teradata-Administrator bereitgestellt werden.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O-Anker: Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R-Anker: Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.