Skip to main content

Stepwise Tool Icon Herramienta Escalonado

Ejemplo de cada herramienta

La herramienta Mosaico tiene un ejemplo de uso. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

La herramienta Escalonado determina cuáles son las mejores variables predictoras que se deben incluir en un modelo a partir de un conjunto más grande de posibles variables predictoras para modelos lineales, logísticos y otros modelos de regresión tradicionales.

There are 2 basic approaches used in implementing stepwise regression.

The first (known as backward selection) involves the use of a model that includes all variables that are thought to potentially influence the target variable, and then sequentially removes the least important variable from the original model based on a goodness-of-fit measure that adjusts for the number of variables included in the model. This process continues, with other variables being removed in subsequent backward steps, until there are no further improvements in the adjusted fit measure.

The second basic approach (known as forward variable selection) starts with a model that includes only a constant, and then adds to that model one variable out of the set of potential variables that provides the greatest improvement in the adjusted fit measure. This process is repeated to add additional variables using a set of additional forward steps, which ends when there is no further improvement in the adjusted fit measure. In the base of backward variables selection, a variable that is removed never re-enters in subsequent steps, while in forward selection a variable is never removed in later steps once it has been added. A hybrid approach can be used that starts with a large ("maximal") initial model and a first backward step, but then both forward and backward movements are evaluated in each subsequent step.

La herramienta de regresión escalonada basada en R de Alteryx emplea tanto la selección hacia atrás de variables como la selección combinada hacia atrás y hacia delante de variables. To use the tool, first create a "maximal" regression model that includes all of the variables you believe could matter, and then use the stepwise regression tool to determine which of these variables should be removed based on an adjusted fit measure. A choice of 2 different adjusted fit measures are provided to the user, the Akaike information criterion** (or AIC) and the Bayesian information criterion*** (or BIC). These 2 measures are similar to one another, but the BIC places a larger penalty on the number of variables included in the model, typically resulting in a final model with fewer variables than is the case when the AIC is used.

Con esta herramienta, si los datos de entrada vienen de un flujo de datos de Alteryx normal, se utiliza la función glm de R de código abierto para la estimación del modelo. Si los datos de entrada proceden de una herramienta Salida de XDF o de una herramienta Entrada de XDF, se utiliza la función rxDForest de RevoScaleR para la estimación del modelo. La ventaja de utilizar la función basada en RevoScaleR es que permite analizar conjuntos de datos mucho más grandes (sin memoria), pero a costa de una sobrecarga adicional para crear un archivo XDF y la incapacidad de crear parte de la salida de diagnóstico del modelo que está disponible con las funciones de código abierto R, y solo puede producir un modelo de regresión de Poisson.

Esta herramienta utiliza la herramienta R. Ve a Opciones Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryx para instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Conectar entradas

  • The output stream from a Count Regression, Linear Regression, or Logistic Regression tool used to create the "maximal" model. El flujo se puede conectar a cualquier lado de la herramienta.

  • The same Alteryx data stream or XDF metadata stream that was used to create the "maximal" model. El flujo se puede conectar a cualquier lado de la herramienta.

Configurar la herramienta

Utiliza la pestaña Configuración para establecer los controles para el gráfico de serie temporal.

  • The name of the new model: This is the best model found using the stepwise variable selection based on the search direction and selection criteria chosen. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Search direction: Whether the direction of search involves both backward and forward steps (the method begins with a backward step), or only backward steps are used.

  • Adjusted fit measure: The criteria used to compare different models and select the best model. The choices provided are the Akaike information criterion (AIC) or the Bayesian information criteria (BIC).

Utiliza la pestaña Opciones de gráficos para establecer los controles para la salida gráfica (opcional).

  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi).

    • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

    • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • O anchor: Consists of a table of the serialized model with the model name and the size of the object.

  • Ancla R: consta de los fragmentos de informes generados por la herramienta Conteo de regresiones: un resumen estadístico, un análisis de desviación de tipo II (ANOD) y gráficos de diagnóstico básicos. La tabla de análisis de desviación de tipo II y los gráficos de diagnóstico básicos no se producen cuando la entrada del modelo proviene de una herramienta Salida XDF o Entrada XDF.

*https://en.wikipedia.org/wiki/Stepwise_regression **https://en.wikipedia.org/wiki/Akaike_information_criterion ***https://en.wikipedia.org/wiki/Bayesian_information_criterion