Skip to main content

K-Centroids Diagnostics Tool Icon K-Centroids-Diagnose-Tool

Das Tool „K-Centroids-Diagnose“ ist so konzipiert, dass es dem Benutzer in Anbetracht der Daten und des ausgewählten Clustering-Algorithmus („K-Mittelwerte“, „K-Mediane“ oder „Neural Gas“) eine Einschätzung bezüglich der entsprechenden Anzahl der anzugebenden Cluster ermöglicht. Es handelt sich um ein grafisches Tool, das auf der Berechnung von zwei verschiedenen Statistiken über Bootstrap-Replikationsbeispiele der Originaldaten für einen Bereich der Clustering-Lösung basiert, die sich in der Anzahl der angegebenen Cluster unterscheiden. Die Motivation hinter diesem Ansatz besteht darin, dass – sofern die Datensätze in einer Datenbank tatsächlich zu einem Satz stabiler Cluster gehören – ein Satz mit verschiedenen zufälligen Beispielen dieser Datensätze in etwa zu dem Clustersatz für die Bootstrap-Replikationen resultieren sollte. Dies gilt nicht für geringe Abweichungen aufgrund der Variabilität der zufällig gewählten Beispiele und die durch die Methode hervorgerufene Wahllosigkeit, die zum Generieren des Anfangssatzes mit Flächenmittelpunkten durch zufällige Auswahl der K-Punkte im allgemeinen Algorithmus „K-Flächenmittelpunkte“ verwendet wurde. Die beiden untersuchten Kennzahlen sind der angepasste Rand-Index und der Calinski-Harabasz-Index (wird auch als „Varianz-Verhältnis-Kriterium“ und „Pseudo-F-Statistik“ bezeichnet).

Der angepasste Rand-Index stellt eine Kennzahl der Vergleichbarkeit zwischen zwei verschiedenen Clusteringlösungen bereit, wobei bei perfekter Überlappung der beiden Clusteringlösungen der Maximalwert eins verwendet wird.* Der Index kann zum Bestimmen der relativen und absoluten Reproduzierbarkeit einer Clusteringlösung durch den Vergleich von Lösungspaaren verwendet werden, wobei jedes Paar auf anderen Kundendatenbeispielen basiert. Je größer die Überlappung zwischen den Lösungspaaren ist, desto höher ist die Reproduzierbarkeit der Clusterstruktur.

Der Calinski-Harabasz-Index basiert auf einem Vergleich des gewichteten Verhältnisses der Cluster-Zwischensumme von Quadraten (Kennzahl der Clustertrennung) und der internen Clustersumme der Quadrate (Kennzahl darüber, wie dicht die Punkte in einem Cluster gepackt sind). Im Idealfall sollten die Cluster klar voneinander getrennt sein, sodass die Cluster-Zwischensumme von Quadraten einen hohen Wert aufweist. Die Punkte innerhalb eines Clusters sollten jedoch möglichst nahe beieinander liegen, sodass sich für die Kennzahl der internen Clustersumme der Quadrate kleinere Werte ergeben. Da es sich beim Calinski-Harabasz-Index um ein Verhältnis handelt, bei dem die Cluster-Zwischensumme der Quadrate im Zähler und die interne Clustersumme der Quadrate im Nenner steht, stellen Clusterlösungen mit höheren Indexwerten „bessere“ Lösungen dar als Clusterlösungen mit kleineren Werten.

Die Ausgabe des Tools sind Informationen über die Verteilung der beiden Statistiken für eine unterschiedliche Clusteranzahl in den Bootstrap-Replikationen. Die Informationen werden über zwei Box-Whisker-Plots (jeweils ein Plot für den angepassten Rand-Index und den Calinski-Harabasz-Index) und Übersichtsstatistiken für die beiden Kennzahlen übermittelt. Die bevorzugte Anzahl Cluster, die auf den einzelnen Kennzahlen basiert, entspricht der Kennzahl mit dem höchsten Mittel- und Medianwert der verglichenen Lösungen. Zudem ist es wünschenswert, dass die Abweichung in der berechneten Statistik für die Bootstrap-Replikationen nicht zu groß ist.

Dieses Tool kann sehr rechenintensiv sein. Die Intensität ist abhängig von der Anzahl der in der Berechnung verwendeten Datensätze (dies kann durch die Verwendung der Option für Teilmengenausdrücke geändert werden), von der Anzahl verschiedener untersuchter Clusteringlösungen (Bestimmung durch den Bereich zwischen der minimalen und maximalen Anzahl Cluster), der Anzahl Bootstrap-Replikationen sowie der Anzahl verschiedener Startwerte, die für die einzelnen Clusterlösungen verwendet werden (Wert der Startwertoption). Eine Reduzierung der Anzahl der zu verwendenden Bootstrap-Replikationen führt zwar zu einer deutlich verminderten Berechnungsdauer, die Genauigkeit leidet jedoch erheblich darunter. Für die tatsächliche Analyse wird empfohlen, dass die Benutzer nie weniger als 100 Bootstrap-Replikationen, sondern möglichst mehr verwenden.

Dieses Tool verwendet das R-Tool. Gehen Sie zu „Optionen“ > „Prognose-Tools herunterladen“ und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Herunterladen und Verwalten von Prognose-Tools.

Tool-Konfiguration

Registerkarte „Konfiguration“

  1. Felder (zwei oder mehr auswählen): Wählen Sie die numerischen Felder aus, die beim Aufbau der Clusterlösung verwendet werden sollen.

  2. Felder standardisieren: Wählen Sie diese Option, um die Variablen entweder durch eine Z-Bewertung oder ein Einheitsintervall zu standardisieren.

    • Die Z-Bewertungs-Umwandlung beinhaltet die Subtraktion des Mittelwerts für die einzelnen Felder von den Werten des Felds und die anschließende Division durch die Standardabweichung des Felds. Das Ergebnis ist ein neues Feld mit einem Mittelwert von 0 und einer Standardabweichung von 1.

    • Die Einheiten-Intervallumwandlung beinhaltet die Subtraktion des Minimalwerts eines Felds von den Feldwerten und die anschließende Division durch die Differenz zwischen dem Maximal- und Minimalwert des Felds. Das entsprechende Ergebnis ist ein neues Feld mit Werten von Null bis Eins. Clusteringlösungen sind stark von der Skalierung der Daten abhängig, insbesondere wenn sich die Skala eines Felds stark von der Skala eines anderen Felds unterscheidet. Demzufolge sollte die Skalierung der Daten in Betracht gezogen werden.

  3. Clustering-Methode: Wählen Sie entweder K-Mittelwerte, K-Mediane oder Neural Gas aus.

  4. Minimale Clusteranzahl: Wählen Sie die minimale Anzahl der Cluster aus, die bei der Lösung in Betracht gezogen werden sollen.

  5. Maximale Clusteranzahl: Wählen Sie die maximale Anzahl der Cluster aus, die bei der Lösung in Betracht gezogen werden sollen.

  6. Bootstrap-Replikationen: Die Anzahl der Bootstrap-Replikationen, die zum Berechnen der beiden Indizes verwendet werden sollen. Mögliche Werte liegen zwischen 50 und 200.

  7. Anzahl Startwerte: Die K-Centroids-Methoden verwenden eingangs zufällig gewählte Punkte als Ausgangsflächenmittelpunkte. Die von den einzelnen Methoden bestimmte finale Lösung kann durch die Ausgangspunkte beeinflusst werden. Bei Verwendung mehrerer Startwerte wird die beste Lösung aus dem Satz als finale Lösung beibehalten.

Registerkarte „Diagrammoptionen“

Auf der Registerkarte Diagrammoptionen können Sie die Steuerelemente für das Ausgabediagramm einstellen.

  • Diagrammgröße: Wählen Sie Inch oder Zentimeter für die Diagrammgröße aus.

  • Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).

    • Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.

    • Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.

  • Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.

*en.wikipedia.org/wiki/Rand_index