Skip to main content

K-Centroids Cluster Analysis Tool Icon Ferramenta Análise de Cluster K-Centroides

O K-Centroides representa uma classe de algoritmos para fazer o que é conhecido como análise de cluster de particionamento. Esses métodos usam os registos de um banco de dados e os divide nos "melhores" K grupos com base em alguns critérios. Quase todos os métodos de análise de cluster de particionamento atingem o objetivo ao basear a função de membro do cluster na proximidade de cada registro com um dos K pontos (ou "centroides") nos dados. O objetivo desses algoritmos de cluster é encontrar a localização dos centroides que otimiza alguns critérios em relação à distância entre o centroide de um cluster e os pontos atribuídos a esse cluster para um número pré-especificado de clusters nos dados. Os algoritmos específicos são diferentes uns dos outros tanto nos critérios usados para definir um centroide de cluster quanto nas medidas de distância usadas para definir a proximidade de um ponto em um cluster até o centroide desse cluster.

É possível fazer três tipos específicos de análise de cluster K-Centroides com estas ferramentas: K-Means, K-Medians e clustering Neural Gas. K-Means usa o valor médio dos campos para os pontos de um cluster para definir um centroide, e as distâncias euclidianas são usadas para medir a proximidade de um ponto até um centroide.* K-Medians usa o valor médio dos campos para os pontos em um cluster para definir um centroide, e a distância de Manhattan (também chamada de "city block") é usada para medir a proximidade.** O clustering Neural Gas é semelhante ao K-Means porque usa a distância euclidiana entre um ponto e os centroides para atribuir esse ponto a um determinado cluster.*** No entanto, a diferença entre esse método e o K-Means está na forma como os centroides de cluster são calculados, com a localização do centroide de um cluster envolvendo a média ponderada de todos os pontos de dados, com os pontos atribuídos ao cluster para o qual o centroide está sendo construído recebendo o maior peso, os pontos do cluster mais distante do cluster focal recebendo o menor peso e os pesos atribuídos aos pontos nos clusters intermediários reduzindo à medida em que a distância entre o cluster focal e o cluster ao qual o ponto é atribuído aumenta.

Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Consulte Baixar e utilizar ferramentas preditivas.

Configurar a ferramenta

Guia "Configuração"

Use a guia Configuração para definir os controles da análise de cluster.

  1. Nome da solução: cada solução de cluster precisa de um nome para que possa ser identificada mais tarde. Os nomes de solução devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  2. Campos (selecione dois ou mais): selecione os campos numéricos a serem utilizados na construção da solução de cluster.

  3. Padronizar os campos...: selecione esta opção para padronizar as variáveis por meio de uma padronização z-score ou de um intervalo unitário.

    • A transformação z-score envolve a subtração do valor médio de cada campo dos valores do campo e, em seguida, a divisão pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de 0 e um desvio padrão de 1.

    • A transformação de Intervalo unitário envolve a subtração do valor mínimo de um campo dos valores do campo e, em seguida, a divisão pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de 0 a 1. As soluções de cluster são muito sensíveis à escala dos dados, especialmente se um campo estiver em uma escala muito diferente do outro. Como resultado, o escalonamento dos dados é algo que deve ser considerado.

  4. Método de clustering: escolha entre K-Means, K-Medians ou Neural Gas.

  5. Número de clusters: selecione o número de clusters na solução.

  6. Número de sementes iniciais: os métodos K-Centroides primeiro extraem os pontos selecionados aleatoriamente como centroides iniciais. Os pontos iniciais podem influenciar a solução final determinada por cada um dos métodos. Se forem usadas múltiplas sementes iniciais, a melhor solução do conjunto de soluções será mantida como final.

Guia "Opções de gráfico"

Use a guia Opções de gráfico para definir os controles para o gráfico.

  1. Plotar pontos: se marcado, todos os pontos nos dados são plotados e representados pelo número do cluster ao qual cada ponto é atribuído na solução.

  2. Plotar centroides: se marcado, os centroides de cluster são plotados e representados pelo número do cluster para o qual é o centroide.

  3. O maior número de dimensões para incluir em biplots: biplot é um meio de visualizar soluções de cluster (por meio de componentes principais) em um espaço dimensional menor. A dimensão é feita por duas dimensões de cada vez. Essa opção define o limite máximo de dimensões para usar na visualização. Por exemplo, se o parâmetro é definido como "3", os biplots incluem o primeiro e o segundo, o primeiro e o terceiro e o segundo e o terceiro componentes principais em três figuras separadas.

Guia "Opções de gráfico"

Use a guia Opções de gráfico para definir os controles para a saída.

  • Tamanho do gráfico: selecione polegadas ou centímetros para o tamanho do gráfico.

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor que é melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): selecione o tamanho da fonte para o gráfico.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • Âncora O: consiste em uma tabela do modelo serializado com o nome do modelo e o tamanho do objeto.

  • Âncora R: consiste nos fragmentos de relatório gerados pela ferramenta Análise de Cluster K-Centroides: um resumo estatístico e gráficos da solução de cluster.

*https://pt.wikipedia.org/wiki/K-means

**en.wikipedia.org/wiki/K-medians_clustering

***https://pt.wikipedia.org/wiki/Neural_gas