Lineare-Regression-Tool

One-Tool-Beispiel

Für Lineare Regression gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Das Lineare-Regression-Tool erstellt ein einfaches Modell zur Schätzung von Werten oder zur Auswertung von Beziehungen zwischen Variablen basierend auf einer linearen Beziehung.

Die 2 Hauptarten der linearen Regression sind die nicht regularisierte und die regularisierte lineare Regression:

Die nicht regularisierte lineare Regression erzeugt lineare Modelle, die die Summe der quadratischen Fehler zwischen den tatsächlichen und den prognostizierten Werten der Zielvariablen der Trainingsdaten minimiert.
Die regularisierte lineare Regression gleicht dieselbe Minimierung der Summe der quadratischen Fehler mit einem Penalty-Term für die Größe der Koeffizienten aus und erzeugt tendenziell einfachere Modelle, die weniger zur Überanpassung neigen.

Dieses Tool verwendet das R-Tool. Navigieren Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Gehen Sie zu Prognose-Tools herunterladen und verwenden.

R-Pakete, die von „Lineare Regression“ verwendet werden

R-Paket	Typ	Paketbeschreibung
AlteryxPredictive	Benutzerdefiniert	Dieses Paket bietet benutzerdefinierte Funktionen und ruft CRAN- und benutzerdefinierte R-Pakete auf.
AlteryxRDataX	Benutzerdefiniert	Dieses Paket bietet Konnektivität zwischen Alteryx und R sowie eine Reihe von Funktionen, die die Interaktion zwischen Alteryx und R erleichtern.
AlteryxRviz	Benutzerdefiniert	Dieses Paket wurde als veraltet ausgeschieden. Es bietet Funktionen, die interaktive Visualisierungen für die Prognosetools in Alteryx (Zeitreihen, Netzwerkanalyse) ansteuern.
FlightDesk	Benutzerdefiniert	Dieses Paket vereinfacht die Erstellung von interaktiven Dashboards für die Berichterstellungsausgabe von Prognosemodellen.

Tool-Konfiguration für die Standardausführung

Eingabe verbinden

Verbinden Sie einen Alteryx-Datenstrom oder einen XDF-Metadatenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prognosefeldern.

Anmerkung

XDF ist das MRC/MMLS-Format.

Für die Modellschätzung werden die lm-Funktion der Open-Source-Programmiersprache „R“ sowie die glmnet- und cv.glmnet-Funktionen (aus dem glmnet-Paket) verwendet, wenn die Eingabedaten aus einem Alteryx-Datenstrom stammen.

Stammen die Eingabedaten aus einem XDF-Ausgabe-Tool oder aus einem XDF-Eingabe-Tool, wird für die Modelleinschätzung die RevoScaleR rxLinMod-Funktion verwendet. Der Vorteil der Verwendung der auf RevoScaleR basierenden Funktion besteht darin, dass viel größere (unzureichender Arbeitsspeicher) Datensätze analysiert werden können. Dem gegenüber stehen jedoch der Zusatzaufwand zum Erstellen einer XDF-Datei und fehlende Möglichkeit, eine Modelldiagnoseausgabe zu erstellen, die bei den Open-Source-R-Funktion verfügbar ist.

Tool-Konfiguration

Modellname: Geben Sie einen Namen für das Modell ein, um das Modell identifizieren zu können, wenn in anderen Tools darauf verwiesen wird. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt (.) und Unterstrich (_) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariable auswählen: Wählen Sie Daten aus, für die eine Prognose erstellt werden soll. Eine Zielvariable wird auch Antwortvariable oder abhängige Variable genannt.
Prädiktorvariablen auswählen: Wählen Sie die zu verwendenden Daten aus, um den Wert der Zielvariablen zu beeinflussen. Eine Prognosevariable ist auch als Funktionsvariable oder unabhängige Variable bekannt. Es können beliebig viele Prognosevariablen ausgewählt werden, die Zielvariable sollte jedoch nicht gleichzeitig eine Prognosevariable sein. Spalten, die eindeutige Kennungen enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.

Wählen Sie Anpassen aus, um die Einstellungen Modell, Kreuzvalidierung und Diagramme zu ändern.

Das Modell anpassen

Modellkonstante auslassen: Wählen Sie diese Option aus, um eine Konstante auszulassen und die Ausgleichsgerade durch den Ursprung verlaufen zu lassen.
Gewichtungsvariable für gewichtete kleinste Quadrate verwenden: Wählen Sie eine Variable aus, über die beim Erstellen eines Kleinste-Quadrate-Modells die Wichtigkeit der einzelnen Datensätze bestimmt wird.
Regularisierte Regression verwenden: Wählen Sie diese Option aus, um dieselbe Minimierung der Summe der quadratischen Fehler mit einem Penalty-Term für die Größe der Koeffizienten auszugleichen und ein einfacheres Modell zu erzeugen.
- Alpha-Wert eingeben: Wählen Sie einen Wert zwischen 0 (Ridge-Regression) und 1 (Lasso) aus, um die Gewichtung des Koeffizienten zu messen.
- Prognosevariablen standardisieren: Wählen Sie diese Option aus, damit alle Variablen basierend auf dem verwendeten Algorithmus dieselbe Größe haben.
- Kreuzvalidierung zum Bestimmen der Modellparameter verwenden: Wählen Sie diese Option aus, um eine Kreuzvalidierung durchzuführen und verschiedene Modellparameter zu erhalten
  - Anzahl Aufteilungen: Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
  - Modelltyp: Wählen Sie den Modelltyp aus, um die Koeffizienten zu bestimmen.
    Einfacheres Modell
    Modell mit weniger Standardfehlern in der Stichprobe
  - Startwert festlegen: Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des Startwerts aus, der für die Zuweisung von Datensätzen zu Aufteilungen verwendet wird. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.

Kreuzvalidierung anpassen

Kreuzvalidierung zum Bestimmen der geschätzten Modellqualität verwenden: Wählen Sie diese Option aus, um eine Kreuzvalidierung durchzuführen und verschiedene Metriken und Diagramme zur Modellqualität zu erhalten. Einige Metriken und Diagramme werden in der statischen Ausgabe R angezeigt, während andere in der interaktiven Ausgabe I erscheinen.
- Anzahl Aufteilungen: Wählen Sie die Anzahl Aufteilungen zum Teilen der Daten aus. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
- Anzahl Tests: Wählen Sie die Anzahl Wiederholungen für das Kreuzvalidierungs-Verfahren aus. Die Aufteilungen werden in jedem Test anders ausgewählt und für die Gesamtergebnisse der einzelnen Tests wird ein Durchschnittswert gebildet. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
- Startwert festlegen: Wählen Sie diese Option aus, um die Reproduzierbarkeit der Kreuzvalidierung sicherzustellen, und wählen Sie den Wert des Startwerts aus, der für die Zuweisung von Datensätzen zu Aufteilungen verwendet wird. Wenn Sie bei jeder Ausführung des Workflows denselben Startwert auswählen, ist sichergestellt, dass sich in derselben Vervielfältigung jedes Mal dieselben Datensätze befinden. Der Wert muss eine positive Ganzzahl sein.

Die Diagramme anpassen

Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
- Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
- Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Diagramme anzeigen: Wählen Sie diese Option aus, um Diagramme bei der Verwendung der regularisierten Regression anzuzeigen.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit jedem Ausgabeanker, um Ergebnisse anzuzeigen.

O (Ausgabe): Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R (Bericht): Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.
I (Interaktiv): Zeigt ein Dashboard mit interaktiven Visualisierungen an, um die weitere Datenermittlung und Modelldurchsuchung zu unterstützen.

Tools für In-DB-Verarbeitung konfigurieren

Das Tool „Lineare Regression“ unterstützt die datenbankinterne Verarbeitung in Oracle, Microsoft SQL Server 2016 und Teradata. Weitere Informationen zu In-DB-Support und -Tools finden Sie unter In-Datenbank – Übersicht.

Wenn ein Lineare-Regression-Tool im Arbeitsbereich platziert wird, in dem sich ein In-DB-Tool befindet, wechselt das Tool automatisch zur In-DB-Version. Um die Version des Tools zu ändern, klicken Sie mit der rechten Maustaste auf das Tool, zeigen Sie auf „Tool-Version auswählen“ und klicken Sie anschließend auf eine andere Version des Tools. Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.

Eingabe verbinden

Verbinden Sie einen In-DB-Datenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prognosefeldern.

Wenn die Eingabe aus einem SQL-Server- oder Teradata-In-DB-Datenstrom stammt, wird die Microsoft Machine Learning Server-Funktion „rxLinMod“ (aus dem Paket RevoScaleR) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern sowohl der lokale Rechner als auch der Server mit Microsoft Machine Learning Server konfiguriert wurden, und kann zu einer erheblichen Leistungssteigerung führen.

Wenn die Eingabe aus einem Oracle-In-DB-Datenstrom stammt, wird die Oracle R Enterprise-Funktion „ore.Im“ (aus dem OREmodels-Paket) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern der lokale PC und der Server mit Oracle R Enterprise konfiguriert wurden. Zudem kann dies zu einer deutlichen Verbesserung der Leistung führen.

Für einen In-DB-Workflow in einer Oracle-Datenbank ist die vollständige Funktionalität des resultierenden Modellobjekt-Abwärtsstroms nur dann gewährleistet, wenn das Lineare-Regression-Tool direkt über ein In‑DB‑verbinden‑Tool mit einer einzelnen, vollständigen ausgewählten Tabelle verbunden ist oder wenn unmittelbar vor dem Lineare-Regression-Tool ein In‑DB‑Daten‑schreiben‑Tool verwendet wird, um die Tabelle mit den geschätzten Daten in der Datenbank zu speichern. Oracle R Enterprise nutzt die Tabelle mit den geschätzten Daten zur Bereitstellung der vollständigen Modellobjektfunktionalität, beispielsweise für die Berechnung der Prognoseintervalle.

Konfiguration

Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Sie können entweder einen Namen angeben oder automatisch einen Namen generieren lassen. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Kennungen enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Modellkonstante auslassen: Aktivieren Sie dieses Element, wenn Sie im Modell eine Konstante auslassen möchten. Dies sollten Sie dann tun, wenn es einen expliziten Grund dafür gibt.
Stichprobengewichtung bei der Modellschätzung anwenden: Klicken Sie auf das Kontrollkästchen, und wählen Sie dann ein Gewichtungsfeld im Datenstrom aus, um ein Modell abzuschätzen, das eine Stichprobengewichtung anwendet. Ein Feld wird sowohl als Prognose- als auch als Gewichtungsvariable verwendet, wenn die Gewichtungsvariable im Modellaufruf in der Ausgabe erscheint und ihr die Zeichenfolge „Right_“ vorangestellt ist.
Oracle-spezifische Optionen: Diese Option ermöglicht die Konfiguration zusätzlicher Optionen, die nur für die Oracle-Plattform relevant sind.
- Modell in der Datenbank speichern: Bewirkt das Speichern des geschätzten Modellobjekts in der Datenbank. Diese Option wird empfohlen, damit die Modellobjekte und Schätztabellen zusammen unter einem zentralen Verzeichnis in der Oracle-Datenbank gespeichert werden.
Teradata-spezifische Konfiguration: Der Microsoft Machine Learning Server benötigt zusätzliche Konfigurationsinformationen über die spezielle zu verwendende Teradata-Plattform, insbesondere die Pfade auf dem Teradata-Server zu den binären ausführbaren Dateien von R und den Speicherort, unter dem die vom Microsoft Machine Learning Server verwendeten temporären Dateien geschrieben werden können. Diese Informationen müssen von einem lokalen Teradata-Administrator bereitgestellt werden.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit jedem Ausgabeanker, um Ergebnisse anzuzeigen.

O (Ausgabe): Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R (Bericht): Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.

Lineare-Regression-Tool

R-Pakete, die von „Lineare Regression“ verwendet werden

Tool-Konfiguration für die Standardausführung

Eingabe verbinden

Tool-Konfiguration

Das Modell anpassen

Kreuzvalidierung anpassen

Die Diagramme anpassen

Ausgabe anzeigen

Tools für In-DB-Verarbeitung konfigurieren

Eingabe verbinden

Konfiguration

Ausgabe anzeigen

Suchresultat