Ferramenta Regressão de Contagem
Fluxo de trabalho de exemplo
A ferramenta Regressão de Contagem tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
Use a ferramenta Regressão de Contagem para criar um modelo de regressão que relacione um campo de número inteiro não negativo (0, 1, 2, 3 etc.) de interesse (uma variável-alvo) a um ou mais campos que podem ter influência sobre essa variável-alvo, os chamados preditores.
Exemplos de casos de uso comuns são o número de visitas de um cliente a um restaurante específico em determinado mês ou a quantidade de números de telefone associados a uma conta de celular. Nesses casos, o uso de um modelo linear resulta em estimativas tendenciosas. Os dois modelos de regressão de contagem mais conhecidos são os modelos Poisson* e binomial negativo**. Dado um conjunto de variáveis preditoras, um modelo de regressão de dados de contagem permite que o usuário obtenha estimativas do número esperado de eventos (por exemplo, visitas a uma loja) para uma unidade de observação (por exemplo, um cliente).
O modelo de regressão de Poisson faz uma forte suposição sobre a relação entre a média e a variância do campo-alvo (mais especificamente, ele pressupõe que ambas sejam iguais). Para levar isso em conta, foi desenvolvido o modelo Quasi-Poisson. O modelo Quasi-Poisson permite que a variância seja diferente da média, mas não possui medidas de critérios de informação definidas (como AIC), portanto, não é possível utilizá-lo como ponto de partida para a seleção stepwise (passo a passo) de variáveis. O modelo de regressão binomial negativo tem critérios de informação bem definidos e permite diferença entre a média e a variância para a distribuição subjacente, de modo que costuma ser preferido pelos usuários. Observação: se um modelo de regressão de Poisson for treinado utilizando dados em que há diferença entre a média e a variância, as estimativas de média e dos coeficientes de modelo correspondentes não serão tendenciosas, mas os testes de significância estatística terão esse problema.
Com essa ferramenta, se os dados de entrada vierem de um fluxo de dados regular do Alteryx, será usada a função open-source GLM do R para o treinamento do modelo. Se a entrada vier de uma ferramenta Entrada XDF ou Saída XDF, será usada a função Revo ScaleR rxGlm para o treinamento do modelo. A vantagem de usar a função baseada em Revo ScaleR é que, com ela, é possível analisar conjuntos de dados muito maiores, mas ela tem custos extras para criar um arquivo XDF, não cria algumas das saídas de diagnóstico do modelo que estão disponíveis com as funções open-source do R e só pode gerar modelos de regressão de Poisson.
Essa ferramenta utiliza a ferramenta R. Vá para OpçõesBaixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.
Conectar uma entrada
Conecte um fluxo de dados do Alteryx ou um fluxo de metadados XDF que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.
Configurar a ferramenta
Guia "Regressão de Contagem - Configuração"
Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.
Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever.
Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Tipo de modelo: selecione Poisson, Quasi-Poisson ou Binomial negativo. Se você seleciona a opção "Binomial negativo", é possível especificar o valor de theta (que está intimamente ligado à variância do modelo). Para estimar o melhor valor de theta a partir dos dados, utilize a opção padrão "auto".
Usar pesos de amostragem no treinamento do modelo? (opcional): marque essa caixa de seleção e selecione o campo de peso no fluxo de dados para treinar o modelo. Essa opção não estará disponível se o tipo de modelo selecionado for "Binomial negativo" e o valor de theta estiver sendo determinado pela opção auto, mas ela funcionará se for fornecido um valor específico de theta (que pode ser baseado em uma execução inicial do modelo sem a utilização de pesos de amostragem).
Guia "Opções de gráfico"
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).
Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.
Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.
Visualizar a saída
Âncora O: consiste em uma tabela do modelo serializado com o nome correspondente.
Âncora R: consiste em fragmentos de relatório gerados pela ferramenta Regressão de Contagem: um resumo estatístico, uma análise de desvio do tipo II (ANOD) e gráficos de diagnóstico básicos. A tabela de análise de desvio do tipo II e os gráficos de diagnóstico básicos não são gerados quando a entrada do modelo vem de uma ferramenta Saída XDF ou Entrada XDF.
en.wikipedia.org/wiki/Poisson_regression
en.wikipedia.org/wiki/Negative_binomial_distribution