A ferramenta Diagnóstico K-Centroides foi desenvolvida para permitir que o usuário faça uma avaliação do número adequado de clusters para especificar os dados e o algoritmo de clustering selecionado (K-Means, K-Medians ou Neural Gas). A ferramenta é gráfica e baseada no cálculo de duas estatísticas diferentes com amostras de réplicas de bootstrap dos dados originais para um intervalo de soluções de cluster, que é diferente conforme o número de clusters especificados. A lógica desta abordagem é que, se os registros em um banco de dados realmente se enquadram em um conjunto de clusters estáveis, isso significa que um conjunto de amostras aleatórias diferentes desses registros deve resultar aproximadamente no conjunto de clusters que envolvem as réplicas de bootstrap, exceto por pequenas diferenças que ocorrem por causa da variabilidade da amostra aleatória e da aleatoriedade induzida pelo método utilizado para gerar o conjunto inicial de centroides, por meio da seleção aleatória de K pontos, no algoritmo geral do K-Centroides. As duas medidas examinadas são o índice Rand ajustado e o índice Calinski-Harabasz (também conhecido como critérios da razão de variância e estatística pseudo F).
O índice Rand ajustado fornece uma medida de similaridade entre duas soluções de clustering diferentes, extraindo o valor máximo de uma delas quando as duas se sobrepõem perfeitamente.* É possível usar o índice para determinar a reprodutibilidade relativa e absoluta de uma solução de cluster comparando pares de soluções, em que cada par é baseado em uma amostra diferente de dados de clientes. Quanto maior a sobreposição entre os pares de soluções, maior a reprodutibilidade da estrutura do cluster.
O índice Calinski-Harabasz é baseado na comparação da proporção ponderada entre a soma de quadrados entre clusters (a medida da separação de clusters) e a soma de quadrados dentro do cluster (a medida do quanto os pontos estão compactados dentro de um cluster). De preferência, os clusters devem ser bem separados, de modo que o valor da soma de quadrados do cluster deve ser grande, mas os pontos dentro de um cluster devem ser o mais próximo possível uns dos outros, resultando em valores menores da medida da soma de quadrados dentro do cluster. Como o índice Calinski-Harabasz é uma proporção, com a soma de quadrados entre clusters no numerador e a soma de quadrados dentro do cluster no denominador, as soluções de cluster com valores maiores do índice correspondem a soluções "melhores" do que aquelas com valores menores.
A saída da ferramenta é a informação sobre a distribuição das duas estatísticas para números diferentes de clusters nas réplicas de bootstrap. A informação é transmitida por meio de dois gráficos de caixa e whisker (um por índice Rand ajustado e índice Calinski-Harabasz) e estatísticas de resumo para as duas medidas. O número preferencial de clusters com base em cada medida corresponde a um com a média mais alta e a mediana das soluções comparadas. Além disso, é desejável que a dispersão nas estatísticas calculadas das réplicas de bootstrap não seja muito grande.
Essa ferramenta pode ser muito intensiva em termos de computação. A intensidade depende do número de registros utilizados no cálculo (o que pode ser alterado por meio da opção de expressão de subconjunto), do número de soluções de cluster diferentes examinadas (determinado pelo intervalo entre o número mínimo e máximo de clusters), do número de réplicas de bootstrap e do número de sementes iniciais diferentes utilizadas para cada solução de cluster (o número da opção de sementes iniciais). A redução do número de réplicas de bootstrap utilizadas reduziu bastante o tempo necessário de computação, mas à custa de grande perda de precisão. Para a análise real, a recomendação é nunca usar menos de 100 réplicas de bootstrap e usar mais se possível.
Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Consulte Baixar e utilizar ferramentas preditivas.
Campos (selecione dois ou mais): selecione os campos numéricos a serem utilizados na construção da solução de cluster.
Padronizar os campos...: selecione esta opção para padronizar as variáveis por meio de uma padronização z-score ou de um intervalo unitário.
A transformação z-score envolve a subtração do valor médio de cada campo dos valores do campo e, em seguida, a divisão pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de 0 e um desvio padrão de 1.
A transformação de Intervalo unitário envolve a subtração do valor mínimo de um campo dos valores do campo e, em seguida, a divisão pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de 0 a 1. As soluções de cluster são muito sensíveis à escala dos dados, especialmente se um campo estiver em uma escala muito diferente do outro. Como resultado, o escalonamento dos dados é algo que deve ser considerado.
Método de clustering: escolha entre K-Means, K-Medians ou Neural Gas.
Número mínimo de clusters: selecione o número mínimo de clusters para considerar na solução.
Número máximo de clusters: selecione o número máximo de clusters para considerar na solução.
Réplicas de bootstrap: o número de réplicas de bootstrap para usar no cálculo dos dois índices. Os valores possíveis são entre 50 e 200.
Número de sementes iniciais: os métodos K-Centroides primeiro extraem os pontos selecionados aleatoriamente como centroides iniciais. Os pontos iniciais podem influenciar a solução final determinada por cada um dos métodos. Se forem usadas múltiplas sementes iniciais, a melhor solução do conjunto de soluções será mantida como final.
Use a guia Opções de gráfico para definir os controles para a saída.
Tamanho do gráfico: selecione polegadas ou centímetros para o tamanho do gráfico.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Resoluções mais baixas geram um arquivo menor que é melhor para visualização em um monitor.
Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico