Les k-centroïdes sont une classe d’algorithmes permettant d’effectuer ce que l’on appelle une « analyse de clusters de partitionnement ». Ces méthodes utilisent les enregistrements d’une base de données et les répartissent (les « partitionnent ») dans les « meilleurs » k groupes sur la base de certains critères. Pratiquement toutes les méthodes d’analyse de clusters de partitionnement atteignent leur objectif en basant l’appartenance de cluster à la proximité de chaque enregistrement sur l’un des k-points (ou « centroïdes ») dans les données. L’objectif de ces algorithmes de clustering est de trouver l’emplacement des centroïdes qui optimise certains critères par rapport à la distance entre le centroïde d’un cluster et les points attribués à ce cluster pour un nombre prédéfini de clusters dans les données. Les algorithmes spécifiques diffèrent l’un par rapport à l’autre en termes de critères servant à définir un centroïde de cluster et de mesures de la distance servant à définir la proximité d’un point dans un cluster par rapport au centroïde de ce cluster.
Trois types spécifiques d'analyse des clusters k-centroïdes peuvent être effectués avec cet outil : k-moyennes, k-médianes et clustering Gaz neuronal. La méthode k-moyennes utilise la valeur moyenne des champs pour les points d’un cluster afin de définir un centroïde, et les distances euclidiennes servent à mesurer la proximité d’un point par rapport à un centroïde.* La méthode k-médianes utilise la valeur médiane des champs pour les points d’un cluster afin de définir un centroïde, et la distance de Manhattan sert à mesurer la proximité.** Le clustering Gaz neuronal est similaire à la méthode k-moyennes, car elle utilise la distance euclidienne entre un point et les centroïdes pour attribuer un cluster donné à ce point.*** Toutefois, cette méthode diffère des k-moyennes en ce qui concerne le mode de calcul des centroïdes de cluster, l’emplacement du centroïde d’un cluster impliquant une moyenne pondérée de tous les points de données, les points attribués au cluster pour lequel le centroïde est construit recevant la pondération la plus élevée, les points du cluster le plus éloigné du cluster focal recevant la pondération la plus faible, et les pondérations données aux points dans les clusters intermédiaires diminuant au fur et à mesure que la distance entre le cluster focal et le cluster auquel un point est attribué augmente.
Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au portail de licences et de téléchargements Alteryx pour installer R et les packages utilisés par l'outil R. Consultez la page Télécharger et utiliser les outils Prédictif.
Utilisez l'onglet Configuration pour définir les contrôles pour l'analyse de clusters.
Nom de la solution : chaque solution de clustering doit avoir un nom à des fins d'identification ultérieure. Le nom d’une solution doit commencer par une lettre et peut contenir des lettres, des chiffres et les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.
Champs (au moins deux) : sélectionnez les champs numériques à utiliser pour construire la solution de clustering.
Standardiser les champs… : sélectionnez cette option pour choisir de standardiser les variables à l'aide d'une standardisation de score z ou d'intervalle d'unités.
La transformation de score z implique la soustraction de la valeur moyenne pour chaque champ des valeurs du champ, puis la division par l'écart-type du champ. Cela entraîne un nouveau champ comportant une moyenne de zéro et un écart-type de un.
La transformation d'intervalle d'unités implique la soustraction de la valeur minimum d'un champ des valeurs du champ, puis la division par la différence entre les valeurs maximum et minimum du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les solutions de clustering sont très sensibles à la mise à l’échelle des données, en particulier si l’échelle d’un champ est très différente de celle d’un autre. Par conséquent, envisagez d'utiliser la mise à l'échelle des données.
Méthode de clustering : sélectionnez K-moyennes, K-médianes ou Gaz neuronal.
Nombre de clusters : sélectionnez le nombre de clusters dans la solution.
Nombre d'amorces de départ : les méthodes k-centroïdes commencent par prendre des points sélectionnés au hasard comme centroïdes initiaux. La solution finale déterminée par chaque méthode peut être influencée par les points initiaux. En cas d’utilisation de plusieurs amorces de départ, la meilleure solution de l’ensemble de solutions est conservée comme solution finale.
Utilisez l'onglet Options de tracé pour définir les contrôles du tracé.
Tracer les points : si cette option est activée, tous les points des données sont tracés et représentés par le numéro de cluster attribué à chaque point dans la solution.
Tracer les centroïdes : si cette option est activée, les centroïdes de cluster sont tracés et représentés par le numéro du cluster dont ils sont le centroïde.
Nombre de dimensions maximum à inclure dans les biplots : un biplot est une méthode de visualisation d'une solution de clustering (via des composants principaux) dans un espace dimensionnel restreint. La dimension est réalisée deux dimensions à la fois. Cette option définit la limite supérieure des dimensions à utiliser dans la visualisation. Par exemple, si ce paramètre a la valeur « 3 », les biplots incluent les premier et deuxième, premier et troisième et deuxième et troisième composants principaux dans 3 figures distinctes.
Dans l'onglet Options des graphiques, définissez les contrôles de sortie.
Taille du tracé : sélectionnez « pouces » ou « centimètres » pour indiquer la taille du graphique.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
Ancrage O : constitué d'une table du modèle sérialisé avec le nom du modèle et la taille de l'objet.
Ancrage R : constitué des snippets de rapports générés par l'outil Analyse des clusters k-centroïdes (résumé statistique et tracés de solution de clustering).
*https://fr.wikipedia.org/wiki/K-moyennes