Skip to main content

Linear Regression Tool Icon Herramienta Regresión lineal

Ejemplo de cada herramienta

La herramienta Regresión lineal tiene un ejemplo de uso. Consulta Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

La herramienta Regresión lineal crea un modelo simple para estimar valores o evaluar relaciones entre variables según una relación lineal.

Los 2 tipos principales de regresión lineal son no regularizada y regularizada:

  • La regresión lineal no regularizada produce modelos lineales que minimizan la suma de errores cuadráticos entre los valores reales y previstos de la variable objetivo de los datos de entrenamiento.

  • La regresión lineal regularizada equilibra la misma minimización de la suma de errores cuadráticos con un término de penalización sobre el tamaño de los coeficientes y tiende a producir modelos más simples que son menos propensos al sobreajuste.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Paquetes R que utiliza la regresión lineal

Paquete R

Tipo

Descripción del paquete

AlteryxPredictive

Personalizado

Este paquete proporciona funciones personalizadas y llamadas a CRAN y paquetes R personalizados.

AlteryxRDataX

Personalizado

Este paquete proporciona conectividad entre Alteryx y R, así como una serie de funciones para facilitar la interacción entre Alteryx y R.

AlteryxRviz

Personalizado

Este paquete ha quedado sin uso. Proporciona funciones que impulsan visualizaciones interactivas para las herramientas predictivas en Alteryx (Series de tiempo, Análisis de red).

flightdeck

Personalizado

Este paquete facilita la creación de paneles interactivos para la generación de informes de salidas de modelos predictivos.

Configurar la herramienta para el procesamiento estándar

Conectar una entrada

Conecta un flujo de datos de Alteryx o un flujo de metadatos XDF que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.

Nota

XDF es un formato MRC/MMLS.

Si los datos de entrada proceden de un flujo de datos de Alteryx, se utilizan la función de código abierto R lm y las funciones glmnet y cv.glmnet (del paquete glmnet) para la estimación del modelo.

Si los datos de entrada proceden de una herramienta Salida XDF o de una herramienta Entrada XDF, se utiliza la función rxLinMod de RevoScaleR para la estimación del modelo. La ventaja de utilizar la función basada en RevoScaleR es que permite analizar conjuntos de datos mucho más grandes (sin memoria), pero a costa de una sobrecarga adicional para crear un archivo XDF y la incapacidad de crear parte de la salida de diagnóstico del modelo que está disponible con las funciones de código abierto R.

Configurar la herramienta

  • Nombre del modelo: ingresa un nombre para el modelo a fin de identificarlo cuando se haga referencia a este en otras herramientas. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guión bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Selecciona la variable objetivo: selecciona los datos que se van a predecir. Una variable objetivo también se conoce como respuesta o variable dependiente.

  • Selecciona las variables predictoras: selecciona los datos que quieres utilizar para influir en el valor de la variable objetivo. Una variable predictora también se conoce como característica o variable independiente. Se puede seleccionar cualquier cantidad de variables predictoras, pero la variable objetivo no debe ser una variable predictora. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

Selecciona Personalizar para modificar la configuración de Modelo, Validación cruzada, y Gráficos.

Personaliza el modelo

  • Omite una constante de modelo: selecciona esto para omitir una constante y hacer que la línea de mejor ajuste pase por el origen.

  • Utiliza una variable de ponderación para mínimos cuadrados ponderados: selecciona una variable para determinar la cantidad de importancia que se debe asignar a cada registro cuando se crea un modelo de mínimos cuadrados.

  • Utiliza la regresión regularizada: selecciona esto para equilibrar la misma minimización de la suma de errores cuadráticos con un término de penalización sobre el tamaño de los coeficientes y producir un modelo más simple.

    • Introducir el valor de alfa: selecciona un valor entre 0 (regresión de ridge) y 1 (lasso) para medir el nivel de énfasis dado al coeficiente.

    • Estandarizar variables predictoras: selecciona esto para hacer que todas las variables tengan el mismo tamaño según el algoritmo utilizado.

    • Utilizar la validación cruzada para determinar parámetros del modelo: selecciona esto para realizar la validación cruzada y obtener varios parámetros del modelo

      • Cantidad de iteraciones: ingresa el número de iteraciones en las que se van a dividir los datos. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones hacen que la herramienta funcione más rápido.

      • ¿Qué tipo de modelo?: selecciona el tipo de modelo para determinar los coeficientes.

        • Modelo más simple

        • Modelo con el menor error cuadrático estándar en la muestra

      • Definir semilla: selecciona esto para asegurar la reproducibilidad de la validación cruzada y seleccionar el valor de la semilla utilizada a fin de asignar registros a iteraciones. Elegir la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en la misma iteración cada vez. El valor debe ser un entero positivo.

Personaliza la validación cruzada

  • Utiliza la validación cruzada para determinar las estimaciones de la calidad del modelo: selecciona esto para realizar la validación cruzada a fin de obtener varias métricas y gráficos de calidad del modelo. Algunas métricas y gráficos se mostrarán en la salida estática R, y otros se mostrarán en la salida I interactiva.

    • Cantidad de iteraciones: ingresa el número de iteraciones en las que se van a dividir los datos. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones hacen que la herramienta funcione más rápido.

    • Cantidad de pruebas: seleccione el número de veces que se repetirá el procedimiento de validación cruzada. Las iteraciones se seleccionan de manera diferente en cada prueba, y los resultados generales se promedian en todas las pruebas. Una mayor cantidad de iteraciones genera estimaciones más robustas de la calidad del modelo, pero menos iteraciones hacen que la herramienta funcione más rápido.

    • Definir semilla: selecciona esto para asegurar la reproducibilidad de la validación cruzada y seleccionar el valor de la semilla utilizada a fin de asignar registros a iteraciones. Elegir la misma semilla cada vez que se ejecuta el flujo de trabajo garantiza que los mismos registros estarán en la misma iteración cada vez. El valor debe ser un entero positivo.

Personaliza los gráficos

  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 ppp); 2x (192 ppp); o 3x (288 ppp).

    • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

    • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

  • Mostrar gráficos: selecciona esto para mostrar los gráficos cuando utilices regresión regularizada.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • O (salida): muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.

  • R (informe): muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.

  • I (interactivo): muestra un panel de control de visualizaciones interactivas para admitir más descubrimiento de datos y exploración de modelos.

Configurar la herramienta para el procesamiento en base de datos

La herramienta Regresión lineal admite el procesamiento en base de datos de Oracle, Microsoft SQL Server 2016 y Teradata. Visita Información general sobre el procesamiento en base de datos para obtener más información sobre la compatibilidad y las herramientas de la categoría En base de datos.

Cuando se coloca una herramienta Regresión lineal en el lienzo con otra herramienta de la categoría En base de datos, la herramienta cambia automáticamente a la versión En base de datos. Para cambiar la versión de la herramienta, haz clic con el botón derecho del mouse en la herramienta, selecciona "Elegir la versión de la herramienta" y haz clic en una versión. Visita Analítica predictiva para obtener más información sobre la compatibilidad con analítica predictiva en base de datos.

Conectar una entrada

Conecta un flujo de datos de la categoría En base de datos, que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.

Si la entrada procede de un flujo de datos del tipo En base de datos de SQL Server o Teradata, se debe utilizar la función rxLinMod de Microsoft Machine Learning Server (del paquete RevoScaleR) para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de la base de datos, siempre y cuando el equipo local y el servidor se hayan configurado con Microsoft Machine Learning Server. Esto puede generar una mejora significativa en el rendimiento.

Si la entrada procede de un flujo de datos del tipo En base de datos de Oracle, se debe utilizar la función ore.lm de Oracle R Enterprise (del paquete OREmodels) para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de la base de datos, siempre y cuando el equipo local y el servidor se hayan configurado con Oracle R Enterprise. Esto puede generar una mejora significativa en el rendimiento.

Para un flujo de trabajo de tipo En base de datos en una base de datos de Oracle, la funcionalidad completa del objeto del modelo resultante posterior solo se produce si la herramienta de regresión lineal está conectada directamente desde una herramienta Conexión En-BD con una única tabla completa seleccionada, o si se utiliza una herramienta de Escribir datos En-BD inmediatamente antes de la herramienta Regresión lineal para guardar la tabla de datos de estimación en la base de datos. Oracle R Enterprise hace uso de la tabla de datos de estimación para proporcionar una funcionalidad completa del objeto del modelo, como el cálculo de intervalos de predicción.

Configuración

  • Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación. La opción es ingresar un nombre o generar uno automáticamente. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir.

  • Selecciona los campos predictores: selecciona los campos del flujo de datos que crees que “causan” los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Omite una constante de modelo: activa este elemento si deseas omitir una constante del modelo. Esto debe hacerse si hay una razón explícita para hacerlo.

  • Utilizar ponderaciones de muestreo para la estimación del modelo: activa la casilla de verificación y, luego, selecciona un campo de ponderación del flujo de datos para estimar un modelo que utilice ponderación de muestreo. Si un campo se utiliza tanto como predictor y como variable de ponderación, la variable de ponderación aparecerá en la salida bajo llamada del modelo, precedida de la cadena “Right_”.

  • Opciones específicas de Oracle: esta opción permite la configuración de opciones adicionales solo relevantes para la plataforma Oracle.

    • Guardar el modelo en la base de datos: hace que el objeto del modelo estimado se guarde en la base de datos, y se recomienda para que los objetos del modelo y las tablas de estimación convivan en una ubicación centralizada en la base de datos de Oracle.

  • Configuración específica de Teradata: Microsoft Machine Learning Server necesita información de configuración adicional acerca de la plataforma específica de Teradata que se va a utilizar, en particular, las rutas en el servidor de Teradata a los ejecutables binarios de R, y la ubicación donde se pueden escribir los archivos temporales que utiliza Microsoft Machine Learning Server. Un administrador local de Teradata deberá proporcionar esta información.

Ver la salida

Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.

  • O (salida): muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.

  • R (informe): muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.