L’outil Diagnostics des k-centroïdes permet d’évaluer le nombre de clusters à spécifier en fonction des données et de l’algorithme de clustering (K-moyennes, K-médianes, ou Gaz neuronal) sélectionné. Cet outil graphique est basé sur le calcul de deux statistiques différentes dans des échantillons de répliques bootstrap des données d’origine pour une série de solutions de clustering qui se différencient par le nombre de clusters spécifié. Le principe de cette approche est que, si les enregistrements d’une base de données sont réellement compris dans un jeu de clusters stables, un jeu d’autres échantillons aléatoires de ces enregistrements devrait générer environ le jeu de clusters dans les répliques bootstrap, à l’exception de petites différences dues à la variabilité des échantillons aléatoires et au caractère aléatoire induit par la méthode utilisée pour générer le jeu de centroïdes de départ, par la sélection de k-points au hasard, dans l’algorithme de k-centroïdes général. Les deux mesures examinées sont l’indice de Rand ajusté et l’indice de Calinski-Harabasz (également appelé « critère de ratio des variances » et « statistique pseudo-F »).
L’indice de Rand ajusté fournit une mesure de similarité entre deux solutions de clustering différentes en utilisant une valeur maximum de un lorsque les deux solutions de clustering se chevauchent à la perfection.* L’indice peut servir à déterminer la reproductibilité relative et absolue d’une solution de clustering en comparant des paires de solutions, chaque paire étant basée sur un échantillon différent de données client. Plus le chevauchement entre les paires de solutions est important, plus la reproductibilité de la structure des clusters est grande.
L’indice de Calinski-Harabasz repose sur la comparaison du rapport pondéré de la somme des carrés entre les clusters (mesure de la séparation de clusters) et de la somme des carrés dans le cluster (mesure de proximité des points dans un cluster). De manière idéale, les clusters doivent être bien séparés, afin que la somme des carrés entre les clusters soit élevée, mais les points dans un cluster doivent être les plus proches possible l’un de l’autre, ce qui entraîne de plus petites valeurs pour la mesure de la somme des carrés dans le cluster. Étant donné que l’indice de Calinski-Harabasz est un rapport, avec la somme des carrés entre les clusters au niveau du numérateur et la somme des carrés dans le cluster au niveau du dénominateur, les solutions de cluster dont l’indice est élevé correspondent à de « meilleures » solutions que celles présentant des valeurs plus petites.
La sortie de l’outil correspond à des informations sur la répartition des deux statistiques pour des nombres de clusters différents dans les répliques bootstrap. Ces informations sont transmises via deux boîtes à moustaches (une pour l’indice de Rand ajusté et une pour l’indice de Calinski-Harabasz) et les statistiques récapitulatives pour les deux mesures. Le nombre de clusters de préférence en fonction de chaque mesure correspond à la valeur moyenne et médiane la plus élevée des solutions comparées. En outre, il est souhaitable que la dispersion dans les statistiques calculées dans les répliques bootstrap ne soit pas trop élevée.
Cet outil peut être soumis à des calculs très intensifs. L’intensité dépend du nombre d’enregistrements utilisés dans le calcul (qui peut être modifié via l’option d’expression de sous-ensemble), du nombre de solutions de clustering différentes examinées (déterminé par la plage entre le nombre minimum de clusters et le nombre maximum), du nombre de répliques bootstrap et du nombre d’amorces de départ différentes utilisées pour chaque solution de clustering (option de nombre d’amorces de départ). Si vous diminuez le nombre de répliques bootstrap à utiliser, le temps de traitement nécessaire diminue considérablement, au détriment de la précision. Pour une analyse réelle, il est recommandé de ne jamais utiliser moins de 100 répliques bootstrap, et d’en utiliser plus dans la mesure du possible.
Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l'outil R. Consultez la page Télécharger et utiliser les outils Prédictif.
Champs (au moins deux) : sélectionnez les champs numériques à utiliser pour construire la solution de clustering.
Standardiser les champs… : sélectionnez cette option pour choisir de standardiser les variables à l'aide d'une standardisation de score z ou d'intervalle d'unités.
La transformation de score z implique la soustraction de la valeur moyenne pour chaque champ des valeurs du champ, puis la division par l'écart-type du champ. Cela produit un nouveau champ avec une moyenne de 0 et un écart-type de 1.
La transformation d'intervalle d'unités implique la soustraction de la valeur minimum d'un champ des valeurs du champ, puis la division par la différence entre les valeurs maximum et minimum du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les solutions de clustering sont très sensibles à la mise à l’échelle des données, en particulier si l’échelle d’un champ est très différente de celle d’un autre. Par conséquent, envisagez d'utiliser la mise à l'échelle des données.
Méthode de clustering : sélectionnez K-moyennes, K-médianes ou Gaz neuronal.
Nombre minimum de clusters : sélectionnez le nombre minimum de clusters à envisager dans la solution.
Nombre maximum de clusters : sélectionnez le nombre maximum de clusters à envisager dans la solution.
Répliques bootstrap : nombre de répliques bootstrap à utiliser pour calculer les deux indices. Les valeurs possibles sont comprises entre 50 et 200.
Nombre d'amorces de départ : les méthodes k-centroïdes commencent par prendre des points sélectionnés au hasard comme centroïdes initiaux. La solution finale déterminée par chaque méthode peut être influencée par les points initiaux. En cas d’utilisation de plusieurs amorces de départ, la meilleure solution de l’ensemble de solutions est conservée comme solution finale.
Dans l'onglet Options des graphiques, définissez les contrôles de sortie.
Taille du tracé : sélectionnez « pouces » ou « centimètres » pour indiquer la taille du graphique.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.