Skip to main content

Stepwise Tool Icon Ferramenta Passo a Passo

Fluxo de trabalho de exemplo

A ferramenta Junção tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.

A ferramenta Passo a Passo determina os melhores preditores para incluir em um modelo entre um conjunto maior de variáveis preditoras potenciais para modelos de regressão linear, logística e outros modelos tradicionais.

There are 2 basic approaches used in implementing stepwise regression.

The first (known as backward selection) involves the use of a model that includes all variables that are thought to potentially influence the target variable, and then sequentially removes the least important variable from the original model based on a goodness-of-fit measure that adjusts for the number of variables included in the model. This process continues, with other variables being removed in subsequent backward steps, until there are no further improvements in the adjusted fit measure.

The second basic approach (known as forward variable selection) starts with a model that includes only a constant, and then adds to that model one variable out of the set of potential variables that provides the greatest improvement in the adjusted fit measure. This process is repeated to add additional variables using a set of additional forward steps, which ends when there is no further improvement in the adjusted fit measure. In the base of backward variables selection, a variable that is removed never re-enters in subsequent steps, while in forward selection a variable is never removed in later steps once it has been added. A hybrid approach can be used that starts with a large ("maximal") initial model and a first backward step, but then both forward and backward movements are evaluated in each subsequent step.

A ferramenta de regressão passo a passo do Alteryx baseada no R seleciona variáveis usando tanto a seleção backward quanto uma combinação entre as seleções backward e forward. To use the tool, first create a "maximal" regression model that includes all of the variables you believe could matter, and then use the stepwise regression tool to determine which of these variables should be removed based on an adjusted fit measure. A choice of 2 different adjusted fit measures are provided to the user, the Akaike information criterion** (or AIC) and the Bayesian information criterion*** (or BIC). These 2 measures are similar to one another, but the BIC places a larger penalty on the number of variables included in the model, typically resulting in a final model with fewer variables than is the case when the AIC is used.

Com essa ferramenta, se os dados de entrada vierem de um fluxo de dados regular do Alteryx, será usada a função open-source GLM do R para o treinamento do modelo. Se os dados de entrada vierem de uma ferramenta Saída XDF ou Entrada XDF, será usada a função RevoScaleR rxDForest para o treinamento do modelo. A vantagem de usar a função baseada em Revo ScaleR é que, com ela, é possível analisar conjuntos de dados muito maiores, mas ela tem custos extras para criar um arquivo XDF, não cria algumas das saídas de diagnóstico do modelo que estão disponíveis com as funções open-source do R e só pode gerar modelos de regressão de Poisson.

Essa ferramenta utiliza a ferramenta R. Vá para Opções Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Visite Baixar e utilizar ferramentas preditivas.

Conectar entradas

  • The output stream from a Count Regression, Linear Regression, or Logistic Regression tool used to create the "maximal" model. Esse fluxo pode ser inserido em qualquer entrada da ferramenta.

  • The same Alteryx data stream or XDF metadata stream that was used to create the "maximal" model. Esse fluxo pode ser inserido em qualquer entrada da ferramenta.

Configurar a ferramenta

Use a guia "Configuração" para definir os controles para o diagrama de série temporal.

  • The name of the new model: This is the best model found using the stepwise variable selection based on the search direction and selection criteria chosen. Os nomes de modelo devem começar com uma letra e podem conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e a ferramenta R diferencia maiúsculas de minúsculas.

  • Search direction: Whether the direction of search involves both backward and forward steps (the method begins with a backward step), or only backward steps are used.

  • Adjusted fit measure: The criteria used to compare different models and select the best model. The choices provided are the Akaike information criterion (AIC) or the Bayesian information criteria (BIC).

Use a guia "Opções de gráfico" para definir os controles para o gráfico de saída (opcional).

  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada — 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

    • Resoluções mais baixas geram um arquivo menor, melhor para visualização em um monitor.

    • Resoluções mais altas geram um arquivo maior e com melhor qualidade de impressão.

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O anchor: Consists of a table of the serialized model with the model name and the size of the object.

  • Âncora R: consiste em fragmentos de relatório gerados pela ferramenta Regressão de Contagem: um resumo estatístico, uma análise de desvio do tipo II (ANOD) e gráficos de diagnóstico básicos. A tabela de análise de desvio do tipo II e os gráficos de diagnóstico básicos não são gerados quando a entrada do modelo vem de uma ferramenta Saída XDF ou Entrada XDF.

*https://en.wikipedia.org/wiki/Stepwise_regression **https://en.wikipedia.org/wiki/Akaike_information_criterion ***https://en.wikipedia.org/wiki/Bayesian_information_criterion