Los centroides k representan una clase de algoritmos para hacer lo que se conoce como análisis de clúster de particionamiento. Estos métodos funcionan tomando los registros de una base de datos y dividiéndolos (particionándolos) en los “mejores” grupos K según algunos criterios. Casi todos los métodos de análisis de clústeres de particionamiento logran su objetivo basando la pertenencia al clúster en la proximidad de cada registro a uno de los puntos K (o “centroides”) en los datos. El objetivo de estos algoritmos de clústeres es encontrar la ubicación de los centroides que optimiza algunos criterios con respecto a la distancia entre el centroide de un clúster y los puntos asignados a ese clúster para un número predeterminado de clústeres en los datos. Los algoritmos específicos difieren entre sí tanto en los criterios utilizados para definir un centroide de clúster como en las medidas de distancia utilizadas para definir la proximidad de un punto en un clúster al centroide de ese clúster.
Con esta herramienta, se pueden realizar tres tipos específicos de análisis de clústeres en centroides k: Medias K, Medianas K o Gas neural. Medias K utiliza el valor medio de los campos para los puntos de un clúster a fin de definir un centroide, y las distancias euclidianas se utilizan para medir la proximidad de un punto a un centroide*. Medianas K utiliza el valor mediano de los campos para los puntos de un clúster a fin de definir un centroide, y la distancia de Manhattan (también llamada bloque de ciudad) se usa para medir la proximidad**. Gas neural es similar a medias K, ya que utiliza la distancia euclidiana entre un punto y los centroides para asignar ese punto a un clúster particular***. Sin embargo, el método difiere de las medias K en cómo se calculan los centroides del clúster, con la ubicación del centroide para un clúster que implica un promedio ponderado de todos los puntos de datos, con los puntos asignados al clúster para el que se está construyendo el centroide que recibe el mayor peso, los puntos del clúster más distante del clúster focal que recibe el menor peso, y los ponderados a los puntos en los clústeres intermedios disminuyen a medida que aumenta la distancia entre el clúster focal y el clúster al que se le asignó un punto.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión en el portal Descargas y licencias de Alteryx para instalar R y los paquetes utilizados por la herramienta R. Consulta Descargar y usar herramientas predictivas.
Utiliza la pestaña Configuración a fin de establecer los controles para el análisis de clústeres.
Nombre de la solución: cada solución de clúster debe tener un nombre para poder identificarla. Los nombres de la solución deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guión bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.
Campos (seleccionar al menos dos): selecciona los campos numéricos que se utilizarán en la construcción de la solución de clúster.
Estandarizar los campos…: selecciona esta opción para estandarizar las variables mediante una estandarización z-score o un intervalo de unidades.
La transformación de z-score implica restar el valor medio de cada campo de los valores del campo y, luego, dividirlo por la desviación estándar del campo. Esto da como resultado un nuevo campo que tiene una media de cero y una desviación estándar de uno.
La transformación de intervalo de unidades implica restar el valor mínimo de un campo de los valores de campo y, luego, dividirlo por la diferencia entre el valor máximo y mínimo del campo. Esto da como resultado un nuevo campo con valores que van de cero a uno. Las soluciones de clústeres son muy sensibles al escalamiento de los datos, en especial si un campo está en una escala muy diferente a la de otro. Como resultado, el escalamiento de datos es algo que debe considerarse.
Método de organización en clústeres: elige entre medias K, medianas K o gas neural.
Cantidad de clústeres: selecciona el número de clústeres en la solución.
Cantidad de propagaciones iniciales: los métodos de centroides K comienzan tomando puntos seleccionados aleatoriamente como los centroides iniciales. La solución final determinada por cada uno de los métodos puede ser influenciada por los puntos iniciales. Si se utilizan varias propagaciones iniciales, la mejor solución fuera del conjunto de soluciones se mantiene como la solución final.
Utiliza la pestaña Opciones del gráfico a fin de configurar los controles para el diagrama.
Graficar puntos: si está marcado, todos los puntos de los datos se grafican y se representan por el número de clúster al que se asigna cada punto en la solución.
Centroides del gráfico: si está marcado, los centroides de clúster se grafican y se representan por el número del clúster para el que es el centroide.
La cantidad más alta de dimensiones que se deben incluir en los gráficos dobles: un gráfico doble es un medio de visualizar soluciones de agrupamiento en clústeres (a través de componentes principales) en un espacio dimensional más pequeño. La dimensión se realiza dos dimensiones a la vez. Esta opción establece el límite superior de las dimensiones a utilizar en la visualización. Por ejemplo, si este parámetro se establece en “3”, entonces el diagrama doble incluye el primero y segundo, primero y tercero, y segundo y tercer componentes principales en tres figuras separadas.
Utiliza la pestaña Opciones de gráficos a fin de configurar los controles para la salida.
Tamaño del gráfico: selecciona pulgadas o centímetros para el tamaño del gráfico.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base (puntos): selecciona el tamaño de la fuente del gráfico.
Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.
Ancla O: consiste en una tabla del modelo serializado con el nombre del modelo y el tamaño del objeto.
Ancla R: consiste en los fragmentos de informe generados por la herramienta Análisis de clústeres en centroides K, un resumen estadístico y diagramas de solución de clúster.
* en.wikipedia.org/wiki/K-means_clustering