Skip to main content

Logistic Regression Icon Ferramenta Regressão Logística

Fluxo de trabalho de exemplo

A ferramenta Regressão Logística tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar a esse e a muitos outros exemplos diretamente do Alteryx Designer.

A ferramenta Regressão Logística cria um modelo que relaciona uma variável-alvo binária (como sim/não, aprovado/reprovado) a uma ou mais variáveis preditoras a fim de obter a probabilidade estimada de cada uma das duas respostas possíveis para a variável-alvo. Modelos de regressão logística comuns incluem logit, probit e complemento log-log. Acesse Regressão Logística.

Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Configurar a ferramenta para processamento padrão

Conectar uma entrada

Conecte um fluxo de dados do Alteryx ou um fluxo de metadados XDF que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Se os dados de entrada vierem de um fluxo do Alteryx, serão usadas as funções open-source do R glm, glmnet e cv.glmnet (do pacote glmnet) para a estimativa do modelo.

Se os dados de entrada vierem de uma ferramenta Saída XDF ou Entrada XDF, será usada a função RevoScaleR rxLogit para a estimativa do modelo. A vantagem de usar a função baseada em RevoScaleR é que, com ela, é possível analisar conjuntos de dados muito maiores (da memória), mas ela tem custos extras para criar um arquivo XDF, não cria algumas das saídas de diagnóstico do modelo disponíveis com as funções open-source do R e permite somente o uso de uma função de ligação logit.

Configurar a ferramenta

  • Tipo Nome do modelo: informe um nome para o modelo a fim de identificá-lo quando ele for referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Selecione a variável-alvo: selecione os dados a serem previstos. A variável-alvo também é chamada de resposta ou variável dependente.

  • Selecione as variáveis preditoras: selecione os dados que influenciam o valor da variável-alvo. Variáveis preditoras também são conhecidas como recursos ou variáveis independentes. Não há um limite para o número de variáveis preditoras selecionadas, mas a variável-alvo não deve ser usada como variável preditora. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Selecione Personalizar para modificar as configurações de Modelo, Validação cruzada e Gráficos.

Personalizar o modelo

  • Usar pesos de amostragem na estimativa do modelo: selecione uma variável para determinar a quantidade de importância a ser colocada em cada registro na criação de um treinamento de modelo. Se um valor for usado tanto como preditor quanto como variável de peso, a variável de peso será exibida no relatório de saída com a cadeia de caracteres "Right_" como prefixo.

  • Usar regressão regularizada: selecione para equilibrar a mesma minimização da soma de erros quadráticos com um termo de penalidade sobre o tamanho dos coeficientes e produzir um modelo mais simples.

    • Inserir valor de alfa: selecione um valor entre 0 (regressão ridge) e 1 (regressão lasso) para medir a ênfase dada ao coeficiente.

    • Padronizar variáveis preditoras: selecione para deixar todas as variáveis do mesmo tamanho com base no algoritmo usado.

    • Usar validação cruzada para determinar os parâmetros do modelo: selecione para realizar a validação cruzada e obter vários parâmetros do modelo.

      • Número de partições (folds): selecione o número de partições (folds) nas quais os dados serão divididos. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.

      • Que tipo de modelo: selecione o tipo de modelo para determinar os coeficientes.

        • Modelo mais simples

        • Modelo com menor erro quadrático médio na amostra

      • Definir semente: selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros às partições (folds). Escolha a mesma semente todas as vezes em que o fluxo de trabalho for executado para garantir que os mesmos registros estejam sempre na mesma partição (fold). O valor deve ser um número inteiro positivo.

    • Inserir classe positiva na variável-alvo (opcional): algumas das medidas reportadas pela ferramenta em casos de classificação binária (como taxa de positivos verdadeiros) exigem a designação de uma classe positiva. Para realizar a classificação binária, insira uma das duas classes positivas da variável-alvo. Se for deixada em branco/não for preenchida, uma das classes será automaticamente determinada como a classe positiva. Essa opção só está disponível para modelos de classificação.

  • Selecionar tipo de modelo: selecione o tipo de modelo a ser utilizado para prever a variável-alvo.

    • logit

    • probit

    • complemento log-log

Personalizar a validação cruzada

  • Usar validação cruzada para determinar estimativas da qualidade do modelo: selecione para realizar a validação cruzada e obter várias métricas de qualidade e gráficos do modelo. Algumas métricas e gráficos serão exibidos na saída R estática e outros serão exibidos na saída I interativa.

  • Número de partições (folds): selecione o número de partições (folds) nas quais os dados serão divididos. Um número maior de partições (folds) resulta em estimativas mais robustas da qualidade do modelo, mas um número menor de partições proporciona uma execução mais rápida da ferramenta.

  • Número de avaliações: selecione o número de vezes para que o procedimento de validação cruzada seja repetido. As partições (folds) são selecionadas de forma diferente em cada avaliação, e os resultados gerais são calculados pela média de todas as avaliações. Um número maior de partições (folds) resulta em treinamentos mais robustos da qualidade do modelo, mas um número menor proporciona uma execução mais rápida da ferramenta.

  • Usar validação cruzada estratificada: selecione para que cada partição (fold) tenha a mesma porcentagem de cada uma das classes presentes em todo o conjunto de dados. Essa opção só está disponível para modelos de classificação.

  • Definir semente: selecione para garantir a reprodutibilidade da validação cruzada e selecione o valor da semente usada para atribuir registros às partições (folds). Escolha a mesma semente todas as vezes em que o fluxo de trabalho for executado para garantir que os mesmos registros estejam sempre na mesma partição (fold). O valor deve ser um número inteiro positivo.

Personalizar os gráficos

Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

  • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

  • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O (saída): exibe o nome do modelo e o tamanho do objeto na janela de resultados.

  • R (relatório): exibe um relatório do modelo que inclui um resumo e gráficos.

  • I (interativo): exibe um painel interativo de elementos visuais de suporte que permite zoom, focalização e cliques.

Configurar a ferramenta para processamento no banco de dados

A ferramenta Regressão Logística é compatível com o processamento no banco de dados Oracle, Microsoft SQL Server 2016 e Teradata. Consulte Visão geral do processamento em banco de dados para obter mais informações sobre suporte e ferramentas de banco de dados.

Quando colocada na tela com uma ferramenta de banco de dados, a ferramenta Regressão Logística muda automaticamente para sua versão in-DB. Para mudar a versão da ferramenta, clique com o botão direito do mouse nela, selecione "Escolher versão da ferramenta" e escolha uma versão diferente. Consulte Análise preditiva para obter mais informações sobre suporte à análise preditiva no banco de dados.

Conectar uma entrada

Conecte um fluxo de dados in-DB que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Se a entrada vier de um fluxo no banco de dados do SQL Server ou Teradata, será utilizada a função rxLogit do Microsoft Machine Learning Server (do pacote RevoScaleR) para a estimativa do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, podendo resultar em uma melhoria significativa no desempenho.

Se a entrada vier de um fluxo no banco de dados do Oracle, será utilizada a função ore.lm do Oracle R Enterprise (do pacote OREmodelsOREmodels) para a estimativa do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Oracle R Enterprise, podendo resultar em uma melhoria significativa no desempenho.

Para um fluxo de trabalho no banco de dados em um banco de dados Oracle, a funcionalidade completa do objeto modelo resultante nas etapas seguintes ocorrerá somente se a ferramenta Regressão Logística estiver conectada diretamente a partir de uma ferramenta Conectar In-DB com uma única tabela completa selecionada, ou se uma ferramenta Gravar Dados In-DB for usada imediatamente antes da ferramenta Regressão Logística para salvar a tabela de dados de estimativa no banco de dados. O Oracle R Enterprise utiliza a tabela de dados de estimativa para fornecer a funcionalidade completa do objeto do modelo, como o cálculo de intervalos de previsão.

Configurar a ferramenta

  • Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Você pode informar um nome ou optar por ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever.

  • Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe que "causem" alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Omitir uma constante de modelo: marque este item se quiser omitir uma constante do modelo. A omissão deve ser feita se houver um motivo explícito para isso.

  • Opções específicas do Oracle: esta opção permite a configuração de opções adicionais relevantes somente na plataforma Oracle.

    • Tipo de modelo: selecione o tipo de modelo a ser utilizado para prever a variável-alvo.

      • logit

      • probit

      • complemento log-log

    • Salvar o modelo no banco de dados: Faz com que o objeto do modelo estimado seja salvo no banco de dados. Isso é recomendado para que os objetos modelo e as tabelas de estimativa coexistam em um local centralizado no banco de dados do Oracle.

  • Usar pesos de amostragem para estimativa do modelo: marque essa caixa de seleção e selecione o campo de peso no fluxo de dados para estimar o modelo. Se um campo for usado tanto como preditor quanto como variável de peso, a variável de peso aparece na saída com o prefixo "Right_".

  • Configuração específica do Teradata: o Microsoft Machine Learning Server precisa de informações de configuração adicionais a respeito da plataforma específica do Teradata a ser usada – mais especificamente, os caminhos no servidor do Teradata para os executáveis binários do R e o local onde os arquivos temporários usados pelo Microsoft Machine Learning Server poderão ser gravados. Essas informações precisam ser fornecidas por um administrador local do Teradata.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • Âncora O: saída. Exibe o nome do modelo e o tamanho do objeto na janela de resultados.

  • Âncora R: Relatório. Exibe um relatório do modelo que inclui um resumo e gráficos.