Spline-Modell-Tool
One-Tool-Beispiel
Es gibt ein One-Tool-Beispiel für das Forest-Modell-Tool. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
(1) Es ermittelt selbst, welche Teilmenge der Felder ein Zielfeld am besten vorhersagt. (2) Es ist in der Lage, hochgradig nichtlineare Beziehungen und Interaktionen zwischen Feldern zu erfassen. Und es kann automatisch eine Vielzahl von Regressions- und Klassifizierungsproblemen auf eine für den Benutzer transparente Weise behandeln (der Benutzer muss lediglich ein Zielfeld und einen Satz Prognosefelder festlegen – erfahrene Benutzer können das Tool jedoch umfassend anpassen).
Das Tool kann für eine Vielzahl von Problemen genutzt werden (z. B. Klassifizierungs-, Häufigkeitsdaten- und Regressionsprobleme mit kontinuierlichem Ziel). Die Methode nutzt bei der Modellentwicklung einen aus zwei Schritten bestehenden Ansatz. Im ersten Schritt (der auch als „Vorwärtsdurchlauf“ bezeichnet wird und dem Algorithmus für die rekursive Partitionierung ähnelt, der im Entscheidungsbaum-Tool verwendet wird) werden die Variablen ermittelt, die für die Prognose des festgelegten Ziels die größte Relevanz besitzen, und in den Variablen werden geeignete Aufteilungspunkte (auch als „Knoten“ bezeichnet) gesucht. Anders als bei einem Entscheidungsbaum wird jedoch eine Linie zwischen benachbarten Knoten (Termen) angepasst, anstatt diskrete Sprünge durchzuführen, wie dies in Entscheidungsbäumen der Fall ist. Dies führt zur Konstruktion einer stückweisen linearen Funktion für jede Variable, die alle Beziehungen zwischen der Zielvariablen und den Prognosevariablen eng approximieren kann. Im zweiten Schritt (Rückwärts- oder Pruning-Durchlauf) werden einige der Knoten in den Variablen entfernt (durch Verlängerung des Liniensegments in den verbleibenden Termen), um so die Wahrscheinlichkeit zu minimieren, dass das Modell eine Überanpassung der Stichprobe durchführt (d. h. das Rauschen der Stichprobe erfasst und nicht das zugrunde liegende Signal).
Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Eingabe
Ein Alteryx-Datenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prognosefeldern
Tool-Konfiguration
Verwenden Sie die Standard-Registerkarte, um die obligatorischen Steuerelemente für das Herunterladen-Tool festzulegen.
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielfeld auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosefelder auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Wenn diese Option aktiviert ist, werden Effektediagramme erstellt, die die Beziehungen zwischen der Prognosevariablen und dem Ziel bei festgelegten Ebenen (der Mittelwert für numerische Prädiktoren, die erste Ebene für Faktoren) der anderen Prognosefelder zeigen. Es gibt Optionen, um nur die Felder anzuzeigen, die einen Haupteffekt auf das Ziel haben, nur die wechselseitigen Interaktionseffekte zwischen Feldern mit einem Perspektivendiagramm oder sowohl die Haupteffekte als auch die wechselseitigen Interaktionen.
Verwenden Sie die Registerkarte Modellanpassung (optional), um spezifischere Anpassungen am Modell vorzunehmen.
Geben Sie den Zieltyp und die GLM-Familie an: Es werden fünf Arten von Zielfeldern unterstützt:
Kontinuierliche Ziele (z. B. numerische Ziele, bei denen ein bestimmter eindeutiger Wert einen relativ geringen Prozentsatz der Instanzen insgesamt enthält)
Gammaverteilte Ziele (streng positive numerische Ziele mit einem hohen Prozentsatz an relativ niedrigen Antwortwerten, jedoch mit einem geringen Prozentsatz an relativ hohen Werten)
Häufigkeitsziele (z. B. Ziele mit ganzzahligem Wert, für die die meisten eindeutigen Werte einen relativ hohen Prozentsatz der Gesamtinstanzen aufweisen, beispielsweise die Anzahl Arztbesuche einer Person pro Jahr)
Binäre kategoriale Ziele (z. B. Zielfeder der Auswahl „ja/nein“)
Multinomiale kategoriale Ziele (z. B. Zielfeder mit einer beschränkten Anzahl diskreter Ergebnisse wie „A“, „B“ oder „C“) Jeder Zielfeldtyp kann eine oder mehrere mögliche zugeordnete Verteilungsfunktionen besitzen (die zu der Kennzahl gehören, die der Algorithmus zu minimieren versucht).
Kontinuierliche Ziele können entweder keine explizite Verteilung oder eine Gauß- bzw. Normalverteilung besitzen.
Im Fall eines gammaverteilten Ziels kann die Link-Funktion verwendet werden (die Beziehung zwischen den Mittelwerten der Verteilung und dem linearen Prädiktor).
Häufigkeitsziele (Ganzzahl) minimieren eine Verlustfunktion basierend auf der Poisson-Verteilung und nutzen entweder eine Log- (bevorzugt) oder Identity Link-Funktion.
Binäre kategoriale Ziele können ein Logit (wird auch in der klassischen logistischen Regression verwendet), ein Probit oder eine komplementäre Log-Log-Link-Funktion verwenden.
Eine multinomiale kategoriale Antwort wird auf Nichtstandard-Weise behandelt. Insbesondere wird anstelle eines echten multinomialen Modells ein Satz binärer Modelle (mit einer Logit-Link-Funktion) geschätzt. Wenn die möglichen Antworten beispielsweise "A", "B" oder "C" sind, wird ein Modell für "A" bei jeder anderen Wahl, "B" bei jeder anderen Wahl und "C" bei jeder anderen Wahl geschätzt.
Wenn es sich bei der Zielvariablen um eine kontinuierliche Variable handelt und diese Option ausgewählt ist, wird eine Transformation der z-Werte (Mittelwert null, Standardabweichung eins) durchgeführt, um die numerische Stabilität im Vorwärtsdurchlauf (erste Phase) des Algorithmus zu unterstützen.
Diese Option steuert die Anzahl der möglichen Knoten (Aufteilungen) in den Prognosefeldern im Vorwärtsdurchlauf (erste Phase) des Algorithmus. Wenn „Automatisch“ ausgewählt ist, wird die Anzahl der Knoten auf der Grundlage der Anzahl der Prognosefelder berechnet. Die tatsächliche Anzahl der Knoten im Vorwärtsdurchlauf ist meist geringer als die maximal zulässige Anzahl.
Interaktionstiefe: Die Interaktionsebene zwischen Prognosefeldern.
Im Fall zweier Prognosefelder mit wechselseitiger Interaktion hängt der Effekt, den der eine Prädiktor auf das Ziel ausübt, von der Ebene des zweiten Prädiktors ab.
Im Fall einer dreifachen wechselseitigen Interaktion hängt der Effekt eines Prognosefelds auf ein Ziel von den Werten der beiden anderen Prognosefelder ab.
Es können bis zu fünf wechselseitige Interaktionen (eine Interaktionstiefe von 5) festgelegt werden. Der Standardwert dieses Parameters ist 1 (eine implizite Annahme, dass keine Interaktionen zwischen Prognosefeldern vorliegen). Eine höhere Interaktionstiefe kann die Ausführungszeit des Modells sehr stark verlängern.
Die zu optimierende Funktion enthält eine Abzugskomponente, mit der die Möglichkeit verringert wird, dass das finale Modell die Stichprobendaten überanpasst. Der Standardwert ist 2 für ein ausschließlich Haupteffekte berücksichtigendes Modell und 3, wenn drei oder mehr wechselseitige Interaktionen zulässig sind. Der Wert -1 sorgt dafür, dass keine Abzüge für Knoten oder Terme angewendet werden, während der Wert 0 den Standardabzug nur auf Terme anwendet.
Je höher der Wert dieser Terme ist, desto höher muss die R-Quadrat-Verbesserung sein, damit ein Knoten zum Modell hinzugefügt wird.
Wenn 0 ausgewählt ist, wird der zulässige Mindestabstand anhand einer Formel berechnet. Wenn 1 ausgewählt ist, können alle Werte einer Prognosevariablen ein Knoten sein (dies funktioniert nur gut, wenn in den Daten nur sehr wenig Rauschen ist). Andernfalls muss ein numerischer Wert zwischen 0 und 1 angegeben werden, der den Abstand als Prozentsatz der Entfernung einer Prognosevariablen angibt.
Der Term für den zusätzlichen Abzug, der für das Hinzufügen einer neuen Variablen zum Modell an die Zielfunktion angefügt wird Zulässige Werte reichen von 0 bis 0,5. Wie der Abzug pro Knoten oder Term dient diese Option dazu, eine Überanpassung zu kontrollieren.
Die maximale Anzahl der übergeordneten Termini, die bei jedem Schritt im Vorwärtsgang berücksichtigtwerden: Dieser Begriff steuert die Anzahl der Termini, die in einem Vorwärtsgang erstellt werden, wodurch die Ausführung beschleunigt werden kann. Mit dem Wert 0 werden keine Grenzen für den Term festgelegt. Eine Zahl größer 0 legt die maximale Anzahl der Terme fest. Der Standardwert ist 20, aber auch 10 und 5 sind häufig verwendete Werte.
Eine Erläuterung dieses Parameters finden Sie im Abschnitt 3.1 von Friedman (1993).***
Mit dieser Option können Sie mit einer Kreuzvalidierung bewerten, ob das Pruning relativ zur vom Algorithmus verwendeten generalisierten Kreuzvalidierungsmethode ausreicht. Wenn diese Option ausgewählt ist, kann der Benutzer Folgendes festlegen: die Anzahl der separaten Kreuzvalidierungsdurchläufe, die Anzahl der Aufteilungen in jedem Kreuzvalidierungsdurchlauf, ob die Kreuzvalidierungsstichproben geschichtet werden, damit ein vergleichbarer Antwortmix für ein kategoriales Ziel vorliegt (z. B. eine vergleichbare Anzahl von Ja- und Nein-Antworten für eine binäre kategoriale Variable), den Anfangswert für den Zufallsgenerator für die generierten Zufallszahlen, mit denen die Stichproben erstellt werden.
Die Auswahlmöglichkeiten lauten „Rückwärtselimination“, „Keine“, „Erschöpfende Suche“, „Vorwärtsselektion“ und „Sequenzielles Ersetzen“.
Die Rückwärtselimination (der Standard) beginnt mit allen im Vorwärtsdurchlauf gefundenen Knoten und Termen, entfernt dann zuerst den Term mit der geringsten Vorhersage (indem entsprechende Anpassungen der betroffenen verbleibenden Terme durchgeführt werden) und vergleicht dann den Effekt auf die Kennzahl der generalisierten Kreuzvalidierung relativ zum vollständigen Modell. Wenn sich die Kennzahl der generalisierten Kreuzvalidierung durch das Entfernen eines Terms nicht verbessert, wird zu dem nach dem Vorwärtsdurchlauf erstellten Modell zurückgekehrt. Wenn sich die Kennzahl der generalisierten Kreuzvalidierung verbessert, wird der Term aus dem Modell entfernt und der Prozess für die verbleibenden Terme wiederholt. Wenn das Entfernen eines Terms an irgendeiner Stelle die Kennzahl der generalisierten Kreuzvalidierung relativ zu dem beim letzten Durchlauf erstellten Modell nicht verbessert, wird der Prozess beendet.
Wenn „Keine“ ausgewählt ist, werden alle im Vorwärtsdurchlauf gefundenen Terme im finalen Modell verwendet.
Bei der erschöpfenden Suche werden alle Kombinationen von in der Vorwärtssuche gefundenen Termen untersucht, was sehr viel Rechenleistung erfordert.
Beim Vorwärtslöschen werden alle Terme außer dem Achsenabschnitt entfernt. Danach wird der beste der im Vorwärtsdurchlauf gefundenen Terme ermittelt und in das Modell aufgenommen (wobei angenommen wird, dass er die Kennzahl der generalisierten Kreuzvalidierung relativ zu einem Modell nur mit Achsenabschnitt verbessert). Dieser Prozess wird so lange fortgesetzt, bis kein weiterer Term mehr hinzugefügt werden kann, der die Kennzahl der generalisierten Kreuzvalidierung verbessert.
Beim sequenziellen Ersetzen wird in einer Lösung mit einer bestimmten Anzahl an Termen ein Term durch alle anderen möglichen im Vorwärtsdurchlauf gefundenen verbliebenen Terme ersetzt, die noch nicht zur Menge der Terme im Pruning-Durchlauf gehören. Wenn ein neuer Term gefunden wird, der die Kennzahl der generalisierten Kreuzvalidierung relativ zum Originalterm verbessert, wird der Originalterm durch den neuen Term ersetzt.
Wenn 0 ausgewählt ist (der Standard) werden alle Terme, die übrig bleiben, nachdem die anderen im Vereinfachungsdurchlauf verwendeten Kriterien angewendet wurden, im finalen Modell verwendet. Andernfalls werden nur die wichtigsten Terme bis zur ausgewählten Anzahl im finalen Modell beibehalten.
Verwenden Sie die Diagramm-Optionen-Registerkarte, um die Steuerelemente für die grafische Ausgabe festzulegen (optional).
Diagrammgröße: Wählen Sie Inch oder Zentimeter für die Diagrammgröße aus.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O-Anker: Besteht aus einer Tabelle des serialisierten Modells mit seinem Modellnamen.
Besteht aus den vom Tool „Spline-Modell“ erzeugten Berichtsausschnitten: einer Zusammenfassung des Basismodells, einem Wichtigkeitsdiagramm (das die relative Wichtigkeit der verschiedenen Prognosefelder zeigt), einem Diagramm der Basismodelldiagnose und (optional) den Effektediagrammen.
* https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
** Freidman, Jerome H., "Multivariate Adaptive Regression Splines", Stanford University, August 1990