Skip to main content

Count Regression Tool Icon Herramienta Conteo de regresiones

Ejemplo de cada herramienta

La herramienta Conteo de regresiones tiene un ejemplo de uso. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

Utiliza la herramienta Conteo de regresiones para crear un modelo de regresión que relaciona un campo de interés (una variable objetivo) de valor entero no negativo (0, 1, 2, 3, etc.) con uno o más campos que se espera que influyan en la variable objetivo y que a menudo se denominan variables predictoras.

Algunos ejemplos de casos prácticos comunes son la cantidad de visitas que un cliente hace a un restaurante en particular en un mes determinado o la cantidad de números de teléfono asociados con una cuenta de teléfono móvil en particular. En estos casos prácticos, el uso de un modelo lineal da como resultado estimaciones sesgadas. Los dos modelos de conteo de regresiones más conocidos son Poisson* y los modelos binomiales negativos**. Dado un conjunto de variables de predicción, un modelo de conteo de regresiones de datos permite que un usuario obtenga estimaciones del número esperado de eventos (por ejemplo, visitas a una tienda) para una unidad de observación (por ejemplo, un cliente).

El modelo de regresión de Poisson realiza una suposición sólida acerca de la relación entre la media y la varianza del campo objetivo (específicamente, que son iguales entre sí). Tomando esto en cuenta, se desarrolló el modelo cuasi Poisson. El modelo cuasi Poisson permite una varianza diferente de la media, pero a expensas de no tener medidas de criterios de información definidas (como AIC), por lo que no se puede utilizar un modelo cuasi Poisson al inicio de la selección de variables escalonadas. El modelo de regresión binomial negativo tiene criterios de información bien definidos y permite una diferencia en la media y la varianza para la distribución subyacente, por lo que se prefiere normalmente. Se debe tener en cuenta que un modelo de regresión Poisson estimado usando datos en los que la media y la varianza difieren entre sí proporciona estimaciones imparciales de la media y los coeficientes de modelo correspondiente, pero las pruebas de importancia estadística están sesgadas.

Con esta herramienta, si los datos de entrada vienen de un flujo de datos de Alteryx normal, se utiliza la función glm de R de código abierto para la estimación del modelo. Si la entrada viene de una herramienta Entrada XDF o de una herramienta Salida XDF, se utiliza la función rxGlm de RevoScaleR para la estimación del modelo. La ventaja de utilizar la función basada en RevoScaleR es que permite analizar conjuntos de datos mucho más grandes (sin memoria), pero a costa de una sobrecarga adicional para crear un archivo XDF y la incapacidad de crear parte de la salida de diagnóstico del modelo que está disponible con las funciones de código abierto R, y solo puede producir un modelo de regresión de Poisson.

Esta herramienta utiliza la herramienta R. Ve a OpcionesDescargar herramientas predictivas e inicia sesión en el portal de descargas y licencias de Alteryx para instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Conectar una entrada

Conecta un flujo de datos de Alteryx o un flujo de metadatos XDF que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.

Configurar la herramienta

Pestaña "Conteo de regresiones - Configuración"

  • Nombre del modelo: cada modelo debe tener un nombre para poder identificarlo. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir.

  • Selecciona las variables predictoras: selecciona los campos del flujo de datos que crees que causan los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Tipo de modelo: selecciona Poisson, Cuasi Poisson o Binomial negativo. Si seleccionas binomial negativo, puedes especificar el valor de theta (que está estrechamente vinculado a la varianza del modelo). El mejor valor de theta se puede calcular a partir de los datos si se utiliza la opción predeterminada "auto".

  • ¿Utilizar ponderaciones de muestreo en la estimación del modelo? (Opcional): selecciona la casilla de verificación y, luego, selecciona un campo de ponderación del flujo de datos para estimar un modelo que utilice la ponderación de muestreo. Esta opción no está disponible si el tipo de modelo seleccionado es binomial negativo y el valor de theta se determina mediante la opción auto, pero funciona para un valor específico de theta (que puede basarse en una ejecución inicial del modelo que no utilizó ponderaciones de muestreo).

Pestaña "Opciones de gráficos"

Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).

  • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

  • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

Ver la salida

  • Ancla O: consta de una tabla del modelo serializado con el nombre del modelo.

  • Ancla R: consta de los fragmentos de informes generados por la herramienta Conteo de regresiones: un resumen estadístico, un análisis de desviación de tipo II (ANOD) y gráficos de diagnóstico básicos. La tabla de análisis de desviación de tipo II y los gráficos de diagnóstico básicos no se producen cuando la entrada del modelo proviene de una herramienta Salida XDF o Entrada XDF.

en.wikipedia.org/wiki/Poisson_regression

en.wikipedia.org/wiki/Negative_binomial_distribution