Das Tool „Bedeutungsgewichtung“ bietet Methoden zur Auswahl einer Reihe von Variablen, die in einem Prognosemodell verwendet werden. Dieses basiert darauf, wie stark die Beziehung der einzelnen möglichen Prognosen mit der Zielvariablen eines zu erstellenden Modells ist.
Für den ausgewählten Datensatz können entweder N Prognosevariablen mit der stärksten Beziehung zum Ziel zugrunde gelegt werden oder es kann eine minimale Bedeutungsgewichtung ausgewählt werden, sodass nur Variablen, die diesen Wert überschreiten, im Modell verwendet werden.
Ein Nachteil dieses Ansatzes liegt darin, dass die Stärke der Beziehung der möglichen Prognosevariablen zum Ziel isoliert betrachtet wird. Mögliche Interaktionseffekte und Korrelationen zwischen Prognosevariablen werden ignoriert. Trotz dieser Einschränkung wird diese Art der Filtermethode in der Praxis häufig verwendet.
Es gibt mehrere mögliche Kennzahlen bezüglich der Bedeutungsgewichtung; welche Methode jeweils anwendbar ist, hängt sowohl vom Zieltyp als auch von der Prognosevariablen (numerisch oder kategorial) ab. Einer der Nachteile liegt darin, dass die Kennzahlen, die zum Ermitteln der relativen Bedeutung verschiedener potenzieller Prognosevariablen verwendet werden, für numerische und kategoriale Variablen unterschiedlich sind. Eine Ausnahme bildet die Relief-Methode. Deren Leistung ist jedoch nicht so robust wie die Leistung der für eine bestimmte Kombination aus Zieltyp und Typ der Prognosevariablen spezifischen Methoden.
Die meisten Kennzahlen werden vom R-Paket FSelector bereitgestellt. Dieses Paket verwendet einige in Java geschriebene Methoden, d. h., um dieses Makro verwenden zu können, muss auf dem Computer, auf dem Alteryx installiert ist, die Java 7-Laufzeitumgebung vorhanden sein.
Wichtig
Dieses Tool wird nicht automatisch mit Alteryx Designer oder den R-Tools installiert. Um dieses Tool zu verwenden, laden Sie es von der Community Gallery herunter.
Ein Alteryx-Datenstrom mit der gewünschten Zielvariablen und einer Reihe von potenziellen Prognosevariablen, die zum Schätzen eines Prognosemodells verwendet werden
Kontinuierliches Ziel: Wählen Sie diese Option, wenn die zu schätzende Zielvariable eine numerische Variable ist. Bei Auswahl dieser Option werden Sie aufgefordert, das Zielvariablenfeld aus den Daten auszuwählen und anzugeben, welche mögliche fortlaufende (numerische) oder kategoriale (Zeichenfolgenvariablen mit Kategoriebeschriftungen) Variable untersucht werden soll. Anschließend müssen Sie den zu untersuchenden Satz Prognosevariablen (des ausgewählten Typs) sowie eine oder mehrere Vergleichskennzahlen auswählen. Für ein fortlaufendes Ziel und fortlaufende Prognosevariablen sind folgende Kennzahlen verfügbar:
Pearson-Korrelation
Spearman-Korrelation (Rangfolge)
Relief (stellt den RRELIEFF-Algorithmus zur Verfügung). Der Benutzer kann sowohl die Anzahl in der Nähe befindlicher Nachbarelemente (Anzahl Nachbarn) als auch die Stichprobengröße (Stichprobengröße) auswählen, die zum Berechnen der RRELIEFF-Kennzahl verwendet wird.
Für ein fortlaufendes Ziel und kategoriale Prognosevariablen sind folgende Kennzahlen bezüglich der Bedeutungsgewichtung verfügbar:
Konditionale Mittelwertkorrelation (Pearson): Diese Kennzahl basiert auf der Berechnung des Mittelwerts der Zielvariablen für jede Ebene (Kategorie) der kategorialen Variablen.
Relief (verwendet den RRELIEFF-Algorithmus). Der Benutzer kann sowohl die Anzahl in der Nähe befindlicher Nachbarelemente (Anzahl Nachbarn) als auch die Stichprobengröße (Stichprobengröße) auswählen, die zum Berechnen der RRELIEFF-Kennzahl verwendet wird.
Spalten, die eindeutige Kennungen enthalten, wie etwa Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Kategorisches Ziel: Wählen Sie diese Option, wenn die zu schätzende Zielvariable eine kategoriale Variable ist. Bei Auswahl dieser Option werden Sie aufgefordert, das Zielvariablenfeld aus den Daten auszuwählen und anzugeben, welche mögliche fortlaufende (numerische) oder kategoriale (Zeichenfolgenvariablen mit Kategoriebeschriftungen) Variable untersucht werden soll. Anschließend müssen Sie den zu untersuchenden Satz Prognosevariablen (des ausgewählten Typs) sowie eine oder mehrere Vergleichskennzahlen auswählen. Für ein fortlaufendes Ziel und fortlaufende Prognosevariablen sind folgende Kennzahlen verfügbar:
Entropie – InformationsgewinnverhältnisEntropie – Gewinnverhältnis
Relief (verwendet den RRELIEFF-Algorithmus) Der Benutzer kann sowohl die Anzahl in der Nähe befindlicher Nachbarelemente (Anzahl Nachbarn) als auch die Stichprobengröße (Stichprobengröße) auswählen, die zum Berechnen der RRELIEFF-Kennzahl verwendet wird.
Für ein kategoriales Ziel und kategoriale Prognosevariablen sind folgende Kennzahlen bezüglich der Bedeutungsgewichtung verfügbar:
Cramers V (Chi-Quadrat)
Relief (verwendet den RRELIEFF-Algorithmus) Der Benutzer kann sowohl die Anzahl in der Nähe befindlicher Nachbarelemente (Anzahl Nachbarn) als auch die Stichprobengröße (Stichprobengröße) auswählen, die zum Berechnen der RRELIEFF-Kennzahl verwendet wird.
D-Anker: Eine Tabelle, die den ausgewählten Wert der Bedeutungsgewichtung für jede potenzielle Prognosevariable enthält.
R-Anker: Berichtsausschnitte, die das Zielfeld (und den Typ) und den Feldtyp der potenziellen Prognosevariablen sowie die Tabelle mit dem ausgewählten Wert der Bedeutungsgewichtung für jede potenzielle Prognosevariable enthalten.