Skip to main content

Logistic Regression Icon Ferramenta Regressão Logística

Fluxo de trabalho de exemplo

A ferramenta Regressão de Contagem tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

A ferramenta Regressão Logística cria um modelo que relaciona um alvo binário a um ou mais preditores para obter a probabilidade estimada para cada uma das duas respostas possíveis para o alvo. Common logistic regression models include logit, probit, and complementary log-log. Regressão logística clássica

Essa ferramenta utiliza a ferramenta R. Vá para OpçõesBaixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Configurar a ferramenta para processamento padrão

Conectar uma entrada

Conecte um fluxo de dados do Alteryx ou um fluxo de metadados XDF que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Se os dados de entrada vierem de um fluxo do Alteryx, será usada a função open-source randomForest do R (pacote randomForest) para o treinamento do modelo.

Se os dados de entrada vierem de uma ferramenta Saída XDF ou Entrada XDF, será usada a função RevoScaleR rxDForest para o treinamento do modelo. A vantagem de usar a função baseada em Revo ScaleR é que, com ela, é possível analisar conjuntos de dados muito maiores, mas ela tem custos extras para criar um arquivo XDF, não cria algumas das saídas de diagnóstico do modelo que estão disponíveis com as funções open-source do R e só pode gerar modelos de regressão de Poisson.

Configurar a ferramenta

  • Nome do modelo: informe um nome para o modelo a fim de identificá-lo quando ele for referenciado em outras ferramentas. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (.) e sublinhado (_). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Selecione a variável-alvo: selecione os dados a serem previstos. A variável-alvo também é chamada de resposta ou variável dependente.

  • Selecione as variáveis preditoras: selecione os dados que influenciam o valor da variável-alvo. Variáveis preditoras também são conhecidas como recursos ou variáveis independentes. Não há um limite para o número de variáveis preditoras selecionadas, mas a variável-alvo não deve ser usada como variável preditora. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

Select Customize to modify the Model, Cross-validation, and Plots settings.

Customize the Model

  • Use sampling weights in model estimation: Select a variable to determine the amount of importance to place on each record when creating a model estimation. Se um campo for usado tanto como preditor quanto como variável de peso, a variável de peso aparece na saída com o prefixo "Right_".

  • Use regularized regression: Select to balance the same minimization of sum of squared errors with a penalty term on the size of the coefficients and produce a simpler model.

    • Os valores de alfa devem estar entre 0 (regressão ridge) e 1 (regressão lasso) para medir a ênfase dada ao coeficiente.

    • Standardize predictor variables: Select to make all variables the same size based on the algorithm used.

    • Use cross-validation to determine model parameters: Select to perform cross-validation and obtain various model parameters

      • Número de partições (folds): insira o número de subconjuntos nos quais os dados serão divididos. Lembre-se de que um número maior de folds resulta em estimativas mais robustas de qualidade do modelo, mas um número menor de folds permite uma execução mais rápida da ferramenta.

      • What type of model: Select the type of model to determine the coefficients.

        • Modelo mais simples

        • Modelo com menor erro padrão de amostra

      • Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. O registro de data e hora deve ser um número inteiro positivo.

  • Select model type: Select the type of model to use for predicting the target variable.

    • logit

    • probit

    • complemento log-log

Customize the Cross-Validation

  • Use cross-validation to determine estimates of model quality: Select to perform cross-validation and obtain various model quality metrics and graphs. Some metrics and graphs will be displayed in the static R output, and others will be displayed in the interactive I output.

  • Número de partições (folds): insira o número de subconjuntos nos quais os dados serão divididos. Lembre-se de que um número maior de folds resulta em estimativas mais robustas de qualidade do modelo, mas um número menor de folds permite uma execução mais rápida da ferramenta.

  • Number of trials: Select the number of times to repeat the cross-validation procedure. The folds are selected differently in each trial, and the overall results are averaged across all the trials. Lembre-se de que um número maior de folds resulta em estimativas mais robustas de qualidade do modelo, mas um número menor de folds permite uma execução mais rápida da ferramenta.

  • Enter positive class for target variable: Some of the measures reported by the tool in binary classification cases (such as true positive rate) require a positive class to be designated. To perform binary classification, type one of the two positive classes of the target variable. If left blank, one of the classes is automatically determined as the positive class. Essa opção só está disponível com múltiplas entradas.

  • Use stratified cross-validation: Select so each fold has the same percentage of each class as is present in the entire dataset. Essa opção só está disponível com múltiplas entradas.

  • Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. O registro de data e hora deve ser um número inteiro positivo.

Customize the Plots

Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

  • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

  • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • Âncora O: exibe o nome do modelo e o tamanho do objeto na janela de resultados.

  • Âncora R: exibe um relatório do modelo que inclui um resumo e gráficos.

  • I (Interactive): Displays an interactive dashboard of supporting visuals that allows you to zoom, hover, and click.

Configurar a ferramenta para processamento no banco de dados

The Logistic Regression tool supports Oracle, Microsoft SQL Server 2016, and Teradata in-database processing. Consulte Visão geral do processamento em banco de dados para obter mais informações sobre suporte e ferramentas de banco de dados.

Quando colocada na tela com uma ferramenta de banco de dados, a ferramenta Modelo de Floresta muda automaticamente para sua versão in-DB. Para mudar a versão da ferramenta, clique com o botão direito do mouse nela, selecione "Escolher versão da ferramenta" e escolha uma versão diferente. Consulte Análise preditiva para obter mais informações sobre suporte à análise preditiva no banco de dados.

Conectar uma entrada

Conecte um fluxo de dados in-DB que inclua um campo-alvo de interesse juntamente com um ou mais possíveis campos preditores.

Se a entrada vier de um fluxo no banco de dados do SQL Server ou Teradata, será utilizada a função rxDForest do Microsoft Machine Learning Server (pacote RevoScaleR) para o treinamento do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, podendo resultar em uma melhoria significativa no desempenho.

Se a entrada vier de um fluxo no banco de dados do SQL Server ou Teradata, será utilizada a função rxDForest do Microsoft Machine Learning Server (pacote RevoScaleR) para o treinamento do modelo. Isso permite que o processamento seja realizado no servidor do banco de dados, desde que a máquina local e o servidor tenham sido configurados com o Microsoft Machine Learning Server, podendo resultar em uma melhoria significativa no desempenho.

For an in-database workflow in an Oracle database, full functionality of the resulting model object downstream only occurs if the Logistic Regression tool is connected directly from a Connect In-DB tool with a single full table selected, or if a Write Data In-DB tool is used immediately before the Logistic Regression tool to save the estimation data table to the database. Oracle R Enterprise makes use of the estimation data table to provide full model object functionality, such as calculating prediction intervals.

Configurar a ferramenta

  • Nome do modelo: cada modelo precisa de um nome para que possa ser identificado mais tarde. Você pode informar um nome ou optar por ter um nome gerado automaticamente. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Selecione a variável-alvo: selecione o campo do fluxo de dados que você deseja prever.

  • Selecione as variáveis preditoras: escolha os campos do fluxo de dados que você pressupõe causem alterações no valor da variável-alvo. Colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.

  • Omit a model constant: Check this item if you want to omit a constant from the model. This should be done if there is an explicit reason for doing so.

  • Oracle specific options: This option allows for the configuration of additional options only relevant for the Oracle platform.

    • Model type: Select the type of model to use for predicting the target variable.

      • logit

      • probit

      • complemento log-log

    • Save the model to the database: Causes the estimated model object to be saved in the database, and is recommended so that the model objects and estimation tables live together in a centralized location in the Oracle database.

  • Usar pesos de amostragem no treinamento do modelo: marque essa caixa de seleção e selecione o campo de peso no fluxo de dados para treinar o modelo. Se um campo for usado tanto como preditor quanto como variável de peso, a variável de peso aparece na saída com o prefixo "Right_".

  • Teradata specific configuration: Microsoft Machine Learning Server needs additional configuration information about the specific Teradata platform to be used – in particular, the paths on the Teradata server to R's binary executables, and the location where temporary files that are used by Microsoft Machine Learning Server can be written. This information will need to be provided by a local Teradata administrator.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O anchor: Output. Âncora O: exibe o nome do modelo e o tamanho do objeto na janela de resultados.

  • Âncora R: Relatório. Âncora R: exibe um relatório do modelo que inclui um resumo e gráficos.