Ferramenta Classificador de Naive Bayes
Fluxo de trabalho de exemplo
A ferramenta Classificador de Naive Bayes tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
A ferramenta Classificador de Naive Bayes cria um modelo de classificação probabilística binomial ou multinomial da relação entre um conjunto de variáveis preditoras e uma variável-alvo categórica. O classificador de Naive Bayes presume que todas as variáveis preditoras são independentes umas das outras e prevê, com base em uma entrada de amostra, uma distribuição probabilística para um conjunto de classes, calculando, assim, a probabilidade de pertencimento a cada uma das classes da variável-alvo.
Uma das principais vantagens da ferramenta Classificador de Naive Bayes é que ela funciona bem mesmo com um conjunto de treinamento reduzido. Essa vantagem deve-se ao fato de que a ferramenta Classificador de Naive Bayes é parametrizada pela média e variância de cada variável, de maneira independente das demais variáveis. Em muitos problemas de classificação de máxima verossimilhança, uma matriz de covariância é necessária para estimar probabilidades previstas, mas conjuntos de treinamento pequenos podem levar a uma matriz de covariância altamente variável que, por sua vez, pode reduzir o desempenho do estimador de máxima verossimilhança (MLE). Como a ferramenta Classificador de Naive Bayes só exige o cálculo de variâncias unidimensionais para cada preditor, a matriz de covariância não é necessária, portanto, o MLE não sofre com os problemas de usar um conjunto de treinamento reduzido.
A ferramenta Classificador de Naive Bayes é útil quando se tenta categorizar um conjunto de observações de acordo com uma variável-alvo de "classes", especialmente nos casos em que são utilizados poucos preditores e um conjunto de treinamento reduzido. Com um conjunto de treinamento inicial, a ferramenta Classificador de Naive Bayes desenvolve um modelo para prever a probabilidade de uma determinada observação pertencer a cada classe da variável-alvo.
Um exemplo simples seria prever se uma pessoa fazendo leasing de automóvel comprará esse veículo ao final do contrato, usando como base tanto as características do carro (por exemplo, caminhonete/sedã/SUV) como do cliente (por exemplo, sexo, idade etc.). A ferramenta Classificador de Naive Bayes permitiria ao usuário "pontuar" futuros indivíduos de acordo com o modelo gerado pelo conjunto de treinamento. Esse processo de pontuação resultaria em um conjunto de probabilidades, uma para a compra ao término do contrato de leasing e outra para a não realização da compra ao término do contrato.
Essa ferramenta utiliza a ferramenta R. Vá para OpçõesBaixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.
Configurar a ferramenta
Parâmetros obrigatórios
Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever. Esse alvo deve ser uma cadeia de caracteres.
Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Suavização de Laplace: escolha um valor positivo como parâmetro de suavização. O padrão é 0. O recurso de suavização de Laplace permite que o usuário "suavize" os dados levando em conta combinações de classes/recursos que podem estar totalmente ausentes no conjunto de treinamento ou que estão sub-representadas em relação à frequência e, portanto, recebem uma probabilidade igual a zero ou, no mínimo, atipicamente baixa (dependendo das circunstâncias). Esse recurso é útil quando se tenta criar um modelo de classificação usando um conjunto de treinamento reduzido que pode não constituir uma amostra suficientemente representativa da população.
Opções de gráfico
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.
Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Visualizar a saída
Âncora O: Objeto. Consiste em uma tabela do modelo serializado com o nome correspondente.
Âncora R: Relatório. Consiste em fragmentos de relatório gerados pela ferramenta Classificador de Naive Bayes: um resumo básico do modelo e os principais gráficos de efeito para cada classe da variável-alvo.