Fluxo de trabalho de exemplo
A ferramenta Classificador de Naive Bayes tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
A ferramenta Classificador de Naive Bayes cria um modelo de classificação probabilística binomial ou multinomial da relação entre um conjunto de variáveis preditoras e uma variável-alvo categórica. O classificador de Naive Bayes presume que todas as variáveis preditoras são independentes umas das outras e prevê, com base em uma entrada de amostra, uma distribuição probabilística para um conjunto de classes, calculando, assim, a probabilidade de pertencimento a cada uma das classes da variável-alvo.
Uma das principais vantagens da ferramenta Classificador de Naive Bayes é que ela funciona bem mesmo com um conjunto de treinamento reduzido. Essa vantagem deve-se ao fato de que a ferramenta Classificador de Naive Bayes é parametrizada pela média e variância de cada variável, de maneira independente das demais variáveis. Em muitos problemas de classificação de máxima verossimilhança, uma matriz de covariância é necessária para estimar probabilidades previstas, mas conjuntos de treinamento pequenos podem levar a uma matriz de covariância altamente variável que, por sua vez, pode reduzir o desempenho do estimador de máxima verossimilhança (MLE). Como a ferramenta Classificador de Naive Bayes só exige o cálculo de variâncias unidimensionais para cada preditor, a matriz de covariância não é necessária, portanto, o MLE não sofre com os problemas de usar um conjunto de treinamento reduzido.
A ferramenta Classificador de Naive Bayes é útil quando se tenta categorizar um conjunto de observações de acordo com uma variável-alvo de "classes", especialmente nos casos em que são utilizados poucos preditores e um conjunto de treinamento reduzido. Com um conjunto de treinamento inicial, a ferramenta Classificador de Naive Bayes desenvolve um modelo para prever a probabilidade de uma determinada observação pertencer a cada classe da variável-alvo.
Um exemplo simples seria prever se uma pessoa fazendo leasing de automóvel comprará esse veículo ao final do contrato, usando como base tanto as características do carro (por exemplo, caminhonete/sedã/SUV) como do cliente (por exemplo, sexo, idade etc.). A ferramenta Classificador de Naive Bayes permitiria ao usuário "pontuar" futuros indivíduos de acordo com o modelo gerado pelo conjunto de treinamento. Esse processo de pontuação resultaria em um conjunto de probabilidades, uma para a compra ao término do contrato de leasing e outra para a não realização da compra ao término do contrato.
Essa ferramenta utiliza a ferramenta R. Vá para OpçõesBaixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.
Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever. Esse alvo deve ser uma cadeia de caracteres.
Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Suavização de Laplace: escolha um valor positivo como parâmetro de suavização. O padrão é 0. O recurso de suavização de Laplace permite que o usuário "suavize" os dados levando em conta combinações de classes/recursos que podem estar totalmente ausentes no conjunto de treinamento ou que estão sub-representadas em relação à frequência e, portanto, recebem uma probabilidade igual a zero ou, no mínimo, atipicamente baixa (dependendo das circunstâncias). Esse recurso é útil quando se tenta criar um modelo de classificação usando um conjunto de treinamento reduzido que pode não constituir uma amostra suficientemente representativa da população.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.
Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Âncora O: Objeto. Consiste em uma tabela do modelo serializado com o nome correspondente.
Âncora R: Relatório. Consiste em fragmentos de relatório gerados pela ferramenta Classificador de Naive Bayes: um resumo básico do modelo e os principais gráficos de efeito para cada classe da variável-alvo.