Skip to main content

Linear Regression Tool Icon Herramienta Regresión lineal

Ejemplo de cada herramienta

La herramienta Conteo de regresiones tiene un ejemplo de uso. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

La herramienta Regresión lineal crea un modelo simple para estimar valores o evaluar relaciones entre variables según una relación lineal.

The 2 main types of linear regression are non-regularized and regularized:

  • Non-regularized linear regression produces linear models that minimize the sum of squared errors between the actual and predicted values of the training data target variable.

  • Regularized linear regression balances the same minimization of sum of squared errors with a penalty term on the size of the coefficients and tends to produce simpler models that are less prone to overfitting.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivase inicia sesión en el portal de Descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

R Packages Used by Linear Regression

R Package

Tipo

Descripción del paquete

AlteryxPredictive

Personalizado

This package provides custom functions and calls CRAN and custom R packages.

AlteryxRDataX

Personalizado

Proporciona conectividad entre Alteryx y R, así como una serie de funciones para facilitar la interacción entre Alteryx y R.

AlteryxRviz

Personalizado

Este paquete ha quedado sin uso. Proporciona funciones que impulsan visualizaciones interactivas para las herramientas predictivas en Alteryx (Series de tiempo, Análisis de red).

flightdesk

Personalizado

FlightDesk es un paquete de R diseñado para facilitar la creación de paneles interactivos para la generación de informes de salidas de modelos predictivos.

Configurar la herramienta para el procesamiento estándar

Conectar una entrada

Conecta un flujo de datos de Alteryx o un flujo de metadatos XDF que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.

Nota

XDF is MRC/MMLS format.

Si los datos de entrada proceden de un flujo de datos de Alteryx, se utiliza la función randomForest de código abierto R (del paquete randomForest) para la estimación del modelo.

Si los datos de entrada proceden de una herramienta Salida de XDF o de una herramienta Entrada de XDF, se utiliza la función rxDForest de RevoScaleR para la estimación del modelo. La ventaja de utilizar la función basada en RevoScaleR es que permite analizar conjuntos de datos mucho más grandes (sin memoria), pero a costa de una sobrecarga adicional para crear un archivo XDF y la incapacidad de crear parte de la salida de diagnóstico del modelo que está disponible con las funciones de código abierto R, y solo puede producir un modelo de regresión de Poisson.

Configurar la herramienta

  • Nombre del modelo: ingresa un nombre para el modelo a fin de identificarlo cuando se haga referencia a este en otras herramientas. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guión bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Selecciona la variable objetivo: selecciona los datos que se van a predecir. Una variable objetivo también se conoce como respuesta o variable dependiente.

  • Selecciona las variables predictoras: selecciona los datos que quieres utilizar para influir en el valor de la variable objetivo. Una variable predictora también se conoce como característica o variable independiente. Se puede seleccionar cualquier cantidad de variables predictoras, pero la variable objetivo no debe ser una variable predictora. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

Select Customize to modify the Model, Cross-validation, and Plots settings.

Customize the Model

  • Omit a model constant: Select to omit a constant and have the best fit line pass through the origin.

  • Use a weight variable for weighted least squares: Select a variable to determine the amount of importance to place on each record when creating a least-squares model.

  • Use regularized regression: Select to balance the same minimization of sum of squared errors with a penalty term on the size of the coefficients and produce a simpler model.

    • Los valores para alfa deben estar entre 0 (regresión de ridge) y 1 (lasso) para medir el nivel de énfasis dado al coeficiente.

    • Standardize predictor variables: Select to make all variables the same size based on the algorithm used.

    • Use cross-validation to determine model parameters: Select to perform cross-validation and obtain various model parameters

      • Number of folds (número de pliegues): ingresa el número de subconjuntos en los que se van a dividir los datos. Ten en cuenta que una mayor cantidad de plegamientos genera estimaciones más robustas de la calidad del modelo, pero menos plegamientos permiten que la herramienta funcione más rápido.

      • What type of model: Select the type of model to determine the coefficients.

        • Modelo más simple

        • Modelo con el menor error cuadrático estándar en la muestra

      • Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. La marca de hora debe ser un entero positivo.

Customize the Cross-Validation

  • Use cross-validation to determine estimates of model quality: Select to perform cross-validation and obtain various model quality metrics and graphs. Some metrics and graphs will be displayed in the static R output, and others will be displayed in the interactive I output.

    • Number of folds (número de pliegues): ingresa el número de subconjuntos en los que se van a dividir los datos. Ten en cuenta que una mayor cantidad de plegamientos genera estimaciones más robustas de la calidad del modelo, pero menos plegamientos permiten que la herramienta funcione más rápido.

    • Number of trials: Select the number of times to repeat the cross-validation procedure. The folds are selected differently in each trial, and the overall results are averaged across all the trials. Ten en cuenta que una mayor cantidad de plegamientos genera estimaciones más robustas de la calidad del modelo, pero menos plegamientos permiten que la herramienta funcione más rápido.

    • Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. La marca de hora debe ser un entero positivo.

Customize the Plots

  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 ppp); 2x (192 ppp); o 3x (288 ppp).

    • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

    • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

  • Display graphs: Select to display graphs when using regularized regression.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • Ancla O: muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.

  • Ancla R: muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.

  • I (Interactive): Displays a dashboard of interactive visualizations to support further data-discovery and model exploration.

Configurar la herramienta para el procesamiento en base de datos

The Linear Regression tool supports Oracle, Microsoft SQL Server 2016, and Teradata in-database processing. Visita Información general sobre el procesamiento en base de datos para obtener más información sobre la compatibilidad y las herramientas de la categoría En base de datos.

Cuando se coloca una herramienta Modelo de bosque en el lienzo con otra herramienta de la categoría En base de datos, la herramienta cambia automáticamente a la versión En base de datos. Para cambiar la versión de la herramienta, haz clic con el botón derecho del mouse en la herramienta, selecciona "Elegir la versión de la herramienta" y haz clic en una versión. Visita Analítica predictiva para obtener más información sobre la compatibilidad con analítica predictiva en base de datos.

Conectar una entrada

Conecta un flujo de datos de la categoría En base de datos, que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.

Si la entrada procede de un flujo de datos del tipo En base de datos de SQL Server o Teradata, se debe utilizar la función rxDForest de Microsoft Machine Learning Server (del paquete RevoScaleR) para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de la base de datos, siempre y cuando el equipo local y el servidor se hayan configurado con Microsoft Machine Learning Server. Esto puede generar una mejora significativa en el rendimiento.

Si la entrada procede de un flujo de datos del tipo En base de datos de SQL Server o Teradata, se debe utilizar la función rxDForest de Microsoft Machine Learning Server (del paquete RevoScaleR) para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de la base de datos, siempre y cuando el equipo local y el servidor se hayan configurado con Microsoft Machine Learning Server. Esto puede generar una mejora significativa en el rendimiento.

For an in-database workflow in an Oracle database, full functionality of the resulting model object downstream only occurs if the Linear Regression tool is connected directly from a Connect In-DB tool with a single full table selected, or if a Write Data In-DB tool is used immediately before the Linear Regression tool to save the estimation data table to the database. Oracle R Enterprise makes use of the estimation data table to provide full model object functionality, such as calculating prediction intervals.

Configuración

  • Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación. La opción es ingresar un nombre o generar uno automáticamente. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir.

  • Selecciona los campos predictores: selecciona los campos del flujo de datos que crees que “causan” los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Omit a model constant: Check this item if you want to omit a constant from the model. This should be done if there is an explicit reason for doing so.

  • Utilizar ponderaciones de muestreo para la estimación del modelo: haz clic en la casilla y, luego, selecciona un campo de ponderación del flujo de datos para estimar un modelo que utilice ponderación de muestreo. Si un campo se utiliza tanto como predictor y como variable de ponderación, la variable de ponderación aparecerá en la salida bajo llamada del modelo, precedida de la cadena “Right_”.

  • Oracle specific options: This option allows for the configuration of additional options only relevant for the Oracle platform.

    • Save the model to the database: Causes the estimated model object to be saved in the database, and is recommended so that the model objects and estimation tables live together in a centralized location in the Oracle database.

  • Teradata specific configuration: Microsoft Machine Learning Server needs additional configuration information about the specific Teradata platform to be used – in particular, the paths on the Teradata server to R's binary executables, and the location where temporary files that are used by Microsoft Machine Learning Server can be written. This information will need to be provided by a local Teradata administrator.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • Ancla O: muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.

  • Ancla R: muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.