Herramienta Modelo aumentado
Ejemplo de cada herramienta
La herramienta Modelo aumentado tiene un ejemplo de uso. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.
Utiliza la herramienta Modelo aumentado para crear modelos aumentados, o boosted, de regresión generalizados que se basan en métodos de aumento de gradiente. Los modelos se crean mediante la incorporación en serie de modelos de árbol de decisión simples a un conjunto de modelos para minimizar una función de pérdida adecuada. Estos modelos utilizan un método de aprendizaje estadístico que:
Autodetermina qué subconjunto de campos predice mejor un campo objetivo.
Es capaz de capturar interacciones y relaciones no lineales entre campos.
Puede abordar automáticamente una amplia gama de problemas de regresión y clasificación.
Utiliza la herramienta Modelo aumentado para la clasificación, el recuento de datos y los problemas de regresión de objetivo continuo.
Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivase inicia sesión en el portal de Descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.
Conectar una entrada
La herramienta Modelo aumentado requiere un flujo de datos de entrada con:
Un campo objetivo de interés
2 o más campos predictores
Los paquetes utilizados en la estimación del modelo varían según el flujo de datos entrante.
Un flujo de datos Alteryx utiliza la función gbm R de código abierto.
Un flujo de metadatos XDF, procedente de una herramienta Entrada XDF o de una herramienta Salida XDF, utiliza la función RevoScaleR rxBTrees.
Un flujo de datos de SQL Server en base de datos utiliza la función rxBTrees.
La instalación de Microsoft Machine Learning Server aprovecha la función RevoScaleR rxBTrees para los datos en las bases de datos de SQL Server o Teradata. Esto requiere que el equipo y el servidor locales se configuren con Microsoft Machine Learning Server, que permite el procesamiento en el servidor de la base de datos y resulta en un mejor rendimiento.
Rendimiento del algoritmo
En comparación con las funciones de código abierto R, la función basada en RevoScaleR puede analizar conjuntos de datos mucho más grandes. Sin embargo, la función basada en RevoScaleR debe crear un archivo XDF, que aumenta el costo general, utiliza un algoritmo que hace más pases por los datos, aumenta el tiempo de ejecución y no puede crear algunas salidas de diagnóstico del modelo.
Configurar la herramienta para el procesamiento estándar
Pestaña "Parámetros obligatorios"
Estos son los campos básicos que necesitas para generar un modelo aumentado. Establece los parámetros obligatorios del modelo:
Nombre del modelo: nombre del modelo para que otras herramientas puedan referenciar. El nombre o el prefijo del modelo debe comenzar con una letra y puede contener letras, números y caracteres especiales como el punto (".") y el guión bajo ("_"). R is case-sensitive.
Selecciona el campo objetivo: el campo de datos que quieres predecir, también conocido como una respuesta o variable dependiente.
Selecciona los campos predictivos: los campos de datos utilizados para influir en el valor de la variable objetivo, también conocido como característica o variable independiente. Se requieren dos campos predictivos como mínimo, pero no hay límite superior en el número de campos predictivos seleccionados. La variable objetivo en sí no debe utilizarse en el cálculo del valor objetivo, por lo que el campo objetivo no debe incluirse en los campos predictivos. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
¿Utilizar ponderaciones de muestreo en la estimación del modelo?: una opción que te permite seleccionar un campo que pondera la importancia colocada en cada registro al crear una estimación de modelo. Si se utiliza un campo tanto como predictor y como ponderación de muestra, el campo de salida con la variable de ponderación se antepone con Right_. Utiliza la opción Selecciona el campo de ponderación de muestreo para elegir el campo utilizado para ponderar los registros.
¿Incluir gráficos de efecto marginal?: una opción para incluir gráficos en el informe que muestran la relación entre la variable predictora y el objetivo, haciendo un promedio sobre el efecto de otros campos predictores. Utiliza la opción Nivel mínimo de importancia de un campo para incluir en los gráficos para configurar un valor porcentual que indica el poder predictivo mínimo de una variable que se incluirá en el gráfico de efecto marginal. Un porcentaje mayor reduce el número de gráficos de efecto marginal producidos.
Pestaña "Personalización del modelo"
Ajustes opcionales que personalizan el modelo de salida basándose en el objetivo y cómo se administran los árboles de decisión. Estas opciones se pueden utilizar para modificar la configuración del modelo.
Especificar el tipo del objetivo y la distribución de la función de pérdida: la categoría de datos en el campo objetivo y la función asociada que optimiza la creación del modelo.
Objetivo continuo: un objetivo numérico en el que cualquier valor único es un pequeño porcentaje del total de instancias, como las ventas anuales por tienda. Para un objetivo continuo, minimiza una función de pérdida basada en una de estas distribuciones:
Gaussiano (pérdida de error cuadrático)
Laplace (pérdida de valor absoluta)
Pérdida de distribución t
Conteo objetivo (número entero): un objetivo numérico en el que la mayoría de los valores únicos son un gran porcentaje de las instancias totales, como el número de visitas al consultorio de un médico que hace una persona en un año. Para un conteo objetivo, minimiza una función de pérdida basada en la distribución Poisson.
Categórico binario (dos resultados): un objetivo categórico con dos resultados posibles, como la categorización sí-no. Para un objetivo categórico binario, minimiza una función de pérdida basada en una de las siguientes distribuciones:
Bernoulli (regresión logística)
AdaBoost (pérdida exponencial)
Categórico multinomial (al menos tres resultados): un campo objetivo categórico con un número limitado de resultados discretos, como la categorización A, B o C. Para un objetivo categórico multinomial, minimiza una función de pérdida basada en una función de pérdida logística multinomial, una generalización multinomial de la función de pérdida de Bernoulli.
Cantidad máxima de árboles en el modelo: el número de árboles de decisión que el algoritmo puede incluir en el modelo final. El valor predeterminado es 4000. Un mayor número de árboles aumenta el tiempo de ejecucion.
Método para determinar la cantidad final de árboles en el modelo: el método utilizado para determinar el número de árboles de decisión que capturan adecuadamente el comportamiento predictivo sin sobreajuste de los datos de muestra.
Validación cruzada: método de validación con un uso eficiente de la información disponible. Recomendado en casos con datos limitados.
Cantidad de plegamientos de validación cruzada: el número de submuestras en los que se dividen los datos para validación o entrenamiento. El valor predeterminado es 5. Los valores comunes son 5 y 10. En un caso con 5 plegamientos, los datos se dividen en 5 submuestras únicas y se crean 5 modelos diferentes, cada uno utilizando datos de 4 de las submuestras. La submuestra final se retiene de la creación del modelo y se utiliza para probar la precisión de la predicción.
Cantidad de núcleos de la máquina que utilizarán validación cruzada: el número de núcleos de máquina utilizados en el análisis. El valor predeterminado es 1. El número utilizado siempre debe ser menor que el número de núcleos disponibles. Para aumentar la velocidad computacional, aumenta el número de núcleos utilizados.
Muestra de prueba (validación): método de validación que saca muestras de los datos de entrenamiento. Recomendado en casos con muchos registros. Utiliza Porcentaje en la muestra de estimación (entrenamiento) para definir el porcentaje de registros utilizados en la muestra de entrenamiento, con el resto utilizado en la muestra de prueba. El valor predeterminado es 50. Los valores comunes son 50% y 75%. Si el 50% de los registros se utiliza en la muestra de entrenamiento, el 50% restante se utiliza para probar la precisión de la predicción.
Instancias no seleccionadas (Out-of-bag, OOB): método de validación que utiliza registros excluidos en la creación de modelos.
Fracción de observaciones utilizadas en la muestra de instancias no seleccionadas (Out-of-bag): un porcentaje de muestreo utilizado para guiar el número apropiado de árboles a incluir en el modo para evitar el sobreajuste. El valor predeterminado es 50%. Los valores comunes están entre 25 y 50%.
Contracción: un valor entre 0 y 1 utilizado para colocar la ponderación en cada árbol añadido al modelo. El valor predeterminado es 0,0020. Los valores más pequeños permiten incluir más árboles en el modelo, lo que aumenta el tiempo de ejecución. Un pequeño valor de contracción puede requerir que el valor establecido del número máximo de árboles de decisión se aumente para garantizar una cantidad óptima de árboles.
Profundidad de interacción: el nivel de interacción entre los campos predictores. Por ejemplo, una interacción de tres vías indica que un predictor depende de otros dos predictores para determinar el impacto en el campo objetivo. El valor predeterminado es lineal, con la suposición de que no hay interacciones entre los campos predictores. Aumentar la profundidad aumenta el tiempo de ejecución.
Cantidad mínima de objetos obligatorios en cada nodo de árbol: un parámetro que verifica si un árbol de decisión tiene el tamaño suficiente antes de permitir la incorporación de otro árbol de decisión. El valor predeterminado es 10. Aumentar el valor resulta en árboles de decisión más pequeños.
Valor de semilla aleatoria: valor que determina la secuencia de selección para el muestreo aleatorio. Esto causa que se selecciónen de los mismos registros dentro de los datos, aunque el método de selección es aleatorio y no depende de los datos. Cambia el valor para cambiar la secuencia de las selecciones aleatorias.
Pestaña "Opciones de gráficos"
La configuración del gráfico de salida. Los valores predeterminados se utilizan a menos que se cambien.
Tamaño del gráfico: el tamaño del gráfico de salida. Selecciona las unidades y define los valores de anchura y altura.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base (puntos): tamaño de fuente en puntos.
Configurar la herramienta para el procesamiento en base de datos
La herramienta Modelo aumentado admite el procesamiento en base de datos de Microsoft SQL Server 2016. Consulta Información general sobre En base de datos para obtener más información sobre la compatibilidad y las herramientas en la base de datos.
Para acceder a la versión en base de datos de la herramienta Modelo aumentado:
Coloca una herramienta de la categoría En base de datos en el lienzo. La herramienta Modelo aumentado cambia automáticamente a Modelo aumentado En-BD
Haz clic con el botón derecho en la herramienta Modelo aumentado, apunta a Elegir la versión de la herramienta y selecciona Modelo aumentado En-BD.
Consulta Análisis predictivopara obtener más información sobre la compatibilidad predictiva en la base de datos.
Pestaña "Parámetros obligatorios"
Los campos básicos necesarios para generar un modelo aumentado.
Cada modelo creado requiere un nombre que otras herramientas puedan referenciar. El procesamiento en base de datos permite dos métodos de creación de nombres de modelos:
Nombre de modelo específico: nombre del modelo determinado por el usuario. El nombre o el prefijo del modelo debe comenzar con una letra y puede contener letras, números y caracteres especiales como el punto (".") y el guión bajo ("_"). R is case-sensitive.
Generar el nombre del modelo automáticamente: el nombre del modelo se genera automáticamente.
Selecciona el campo objetivo: el campo de datos que quieres predecir, también conocido como una respuesta o variable dependiente.
Selecciona las variables predictoras: los campos de datos utilizados para influir en el valor de la variable objetivo, también conocido como característica o variable independiente. Se requieren dos valores predictivos como mínimo, pero no hay límite superior en el número de valores predictivos utilizados. La variable objetivo en sí no debe utilizarse en el cálculo del valor objetivo, por lo que el campo objetivo no debe incluirse en los campos predictivos. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
¿Utilizar ponderaciones de muestreo en la estimación del modelo?: una opción que te permite seleccionar un campo que pondera la importancia colocada en cada registro al crear una estimación de modelo. Si se utiliza un campo tanto como predictor y como ponderación de muestra, el campo de salida con la variable de ponderación se antepone con Right_. Utiliza la opción Selecciona el campo de ponderación de muestreo para elegir el campo utilizado para ponderar los registros.
Pestaña "Personalización del modelo"
Ajustes opcionales que personalizan el modelo de salida basándose en el objetivo y cómo se administran los árboles de decisión. Estas opciones se pueden utilizar para modificar la configuración del modelo.
Especificar el tipo del objetivo y la distribución de la función de pérdida:
Objetivo continuo: un objetivo numérico en el que cualquier valor único es un pequeño porcentaje del total de instancias, como las ventas anuales por tienda.
Para un objetivo continuo, minimiza una función de pérdida basada en la distribución gaussiana.
Categórico binario (dos resultados): un objetivo categórico con dos resultados posibles, como la categorización sí-no.
Para un objetivo categórico binario, minimiza una función de pérdida basada en las distribuciones de Bernoulli.
Categórico multinomial (al menos tres resultados): un campo objetivo categórico con un número limitado de resultados discretos, como la categorización A, B o C.
Para un objetivo categórico multinomial, minimiza una función de pérdida basada en una función de pérdida logística multinomial, una generalización multinomial de la función de pérdida de Bernoulli.
Cantidad máxima de árboles en el modelo: el número de árboles de decisión que el algoritmo puede incluir en el modelo final. El valor predeterminado es 4000. Un mayor número de árboles aumenta el tiempo de ejecucion.
Fracción de observaciones utilizadas en la muestra de instancias no seleccionadas (Out-of-bag): un porcentaje de muestreo utilizado para reducir el número de árboles de decisión incluidos con una evaluación no seleccionada. El valor predeterminado es 50%. Los valores comunes están entre 25 y 50%.
Tasa de aprendizaje (o contracción): un valor entre 0 y 1 utilizado para colocar la ponderación en cada árbol agregado al modelo. El valor predeterminado es 0,0020. Los valores más pequeños permiten incluir más árboles en el modelo, lo que aumenta el tiempo de ejecución.
Un pequeño valor de contracción puede requerir que el valor establecido del número máximo de árboles de decisión se aumente para garantizar una cantidad óptima de árboles.
Tamaño del árbol: para imitar la configuración predeterminada del tamaño de árbol en la herramienta estándar Modelo aumentado, utiliza los valores predeterminados. Para obtener más información, consulta controles rxBTrees.
maxDepth: profundidad máxima de cualquier nodo de árbol [1000]
minBucket: cantidad mínima necesaria de observaciones en un nodo (u hoja) terminal [10]
minSplit: cantidad mínima de observaciones que debe haber en un nodo antes de intentar una división [minBucket * 2]
Valor de semilla aleatoria: valor que determina la secuencia de selección para el muestreo aleatorio. Esto causa que se selecciónen de los mismos registros dentro de los datos, aunque el método de selección es aleatorio y no depende de los datos. Cambia el valor para cambiar la secuencia de las selecciones aleatorias.
Pestaña "Opciones de gráficos"
La configuración del gráfico de salida. Los valores predeterminados se utilizan a menos que se cambien.
Tamaño del gráfico : Selecciona las unidades y establece los valores de anchura y altura.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base (puntos): tamaño de fuente en puntos.
Ver la salida
Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.
Ancla O: emite el nombre y el tamaño del modelo en la ventana de Resultados.
Ancla R: muestra un informe del modelo que incluye un resumen y cualquier gráfico configurado.