Skip to main content

K-Centroids Diagnostics Tool Icon Herramienta Diagnóstico de centroides k

La herramienta Diagnóstico de centroides k está diseñada para permitir al usuario hacer una evaluación del número apropiado de clústeres a especificar dados los datos y el algoritmo de clústeres seleccionado (medias K, medianas K o gas neural). La herramienta es gráfica y se basa en el cálculo de dos estadísticas diferentes sobre muestras replicadas de bootstrap de los datos originales para un rango de soluciones de agrupamiento en clústeres que difieren en la cantidad de agrupamientos en clústeres especificados. La motivación detrás de este enfoque es que si los registros en una base de datos realmente se incluyen en un conjunto de clústeres estables, entonces debería darse el caso de que un conjunto de diferentes muestras aleatorias de esos registros dé como resultado aproximadamente el conjunto de clústeres a lo largo de las réplicas de bootstrap, excepto por pequeñas diferencias que se deben tanto a la variabilidad de la muestra aleatoria como a la aleatoriedad inducida por el método utilizado para generar el conjunto inicial de centroides, mediante la selección de puntos K al azar, en el algoritmo de centroides K general. Las dos medidas examinadas son el índice Rand ajustado y el índice Calinski-Harabasz (también conocido como el criterio de la relación de varianza y la estadística pseudo-F).

El índice Rand ajustado proporciona una medida de similitud entre dos soluciones de agrupación en clústeres diferentes, tomando un valor máximo de una cuando las dos soluciones se superponen perfectamente*. El índice se puede utilizar para determinar la reproducibilidad relativa y absoluta de una solución de agrupación en clústeres comparando pares de soluciones, donde cada par se basa en una muestra diferente de datos de clientes. Cuanto mayor sea la superposición entre pares de soluciones, mayor será la reproducibilidad de la estructura del clúster.

El índice de Calinski-Harabasz se basa en la comparación de la relación ponderada entre la suma de grupos de cuadrados (la medida de la separación de clústeres) y la suma de clústeres dentro de los cuadrados (la medida de cuán apretados están los puntos dentro de un clúster). Idealmente, los clústeres deberían estar bien separados, por lo que el valor de la suma de cuadrados entre clústeres debería ser grande, pero los puntos dentro de un clúster deberían estar lo más cerca posible entre sí, lo que resultaría en valores más pequeños de la medida de suma de cuadrados dentro del clúster. Dado que el índice de Calinski-Harabasz es una relación, con la suma de los cuadrados entre el clúster en el numerador y la suma de los cuadrados dentro del clúster en el denominador, las soluciones de clúster con valores más grandes del índice corresponden a soluciones “mejores” que las soluciones de clúster con valores más pequeños.

El resultado de la herramienta es información sobre la distribución de las dos estadísticas para diferentes números de clústeres a través de las réplicas de bootstrap. La información se transmite a través de dos diagramas de caja y bigotes (uno para el índice Rand ajustado y para el índice Calinski-Harabasz) y estadísticas de resumen para las dos medidas. El número preferido de clústeres basados en cada medida corresponde a uno con la media y mediana más altas de las soluciones comparadas. Además, se busca que la dispersión en las estadísticas calculadas a través de las réplicas de bootstrap no sea demasiado grande.

Esta herramienta puede ser computacionalmente intensiva. La intensidad depende del número de registros utilizados en el cálculo (que se puede alterar mediante el uso de la opción Expresión de subconjuntos), el número de diferentes soluciones de agrupamiento en clústeres examinadas (determinado por el rango entre el número mínimo y máximo de clústeres), el número de réplicas de bootstrap y el número de diferentes semillas iniciales utilizadas para cada solución de clúster (el número de opción de propagaciones iniciales). Reducir la cantidad de réplicas de bootstrap a utilizar redujo en gran medida la cantidad de tiempo de computación necesario, pero a un gran costo de precisión. Para el análisis real, se recomienda que el usuario nunca use menos de 100 réplicas de bootstrap, y utilice más si es posible.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryx para instalar R y los paquetes utilizados por la herramienta R. Consulta Descargar y usar herramientas predictivas.

Configurar la herramienta

Pestaña Configuración

  1. Campos (selecciona al menos dos): selecciona los campos numéricos que se utilizarán en la construcción de la solución de clúster.

  2. Estandarizar los campos…: selecciona esta opción para estandarizar las variables mediante una estandarización z-score o un intervalo de unidades.

    • La transformación de z-score implica restar el valor medio de cada campo de los valores del campo y, luego, dividirlo por la desviación estándar del campo. Esto da como resultado un nuevo campo que tiene una media de cero y una desviación estándar de uno.

    • La transformación de intervalo de unidades implica restar el valor mínimo de un campo de los valores de campo y, luego, dividirlo por la diferencia entre el valor máximo y mínimo del campo. Esto da como resultado un nuevo campo con valores que van de cero a uno. Las soluciones de clústeres son muy sensibles al escalamiento de los datos, en especial si un campo está en una escala muy diferente a la de otro. Como resultado, el escalamiento de datos es algo que debe considerarse.

  3. Método de organización en clústeres: elige entre medias K, medianas K o gas neural.

  4. Cantidad mínima de clústeres: selecciona el número mínimo de clústeres a considerar en la solución.

  5. Cantidad máxima de clústeres: selecciona el número máximo de clústeres a considerar en la solución.

  6. Replicados de bootstrap: el número de réplicas de bootstrap que se utilizarán para calcular los dos índices. Los valores posibles son entre 50 y 200.

  7. Cantidad de propagaciones iniciales: los métodos de centroides K comienzan tomando puntos seleccionados aleatoriamente como los centroides iniciales. La solución final determinada por cada uno de los métodos puede ser influenciada por los puntos iniciales. Si se utilizan varias propagaciones iniciales, la mejor solución fuera del conjunto de soluciones se mantiene como la solución final.

Pestaña Opciones de gráficos

Utiliza la pestaña Opciones de gráficos a fin de configurar los controles para la salida.

  • Tamaño del gráfico: selecciona pulgadas o centímetros para el tamaño del gráfico.

  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).

    • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

    • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

  • Tamaño de fuente base (puntos): selecciona el tamaño de la fuente del gráfico.

en.wikipedia.org/wiki/Rand_index