Herramienta Modelo de bosque
Ejemplo de cada herramienta
La herramienta Modelo de bosque tiene un ejemplo de uso. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.
La herramienta Modelo de bosque crea un modelo que desarrolla un conjunto de modelos de árbol de decisión para predecir una variable objetivo en función de una o más variables predictivas. Los diferentes modelos se desarrollan con muestras aleatorias de los datos originales, lo cual es un procedimiento conocido como bootstrapping. Además, solo se considera una cantidad limitada de variables en cada división de árbol, que se determina mediante el establecimiento automático por R o lo establece el usuario. Consulta Bosque aleatorio para obtener más información.
Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivase inicia sesión en el portal de Descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Para obtener más información, ve a Descargar y usar herramientas predictivas.
Configurar la herramienta para el procesamiento estándar
Conectar una entrada
Conecta un flujo de datos de Alteryx o un flujo de metadatos XDF que incluya un campo objetivo de interés, junto con uno o más campos predictores posibles.
Si los datos de entrada proceden de un flujo de datos de Alteryx, se utiliza la función randomForest de código abierto R (del paquete randomForest) para la estimación del modelo.
Si los datos de entrada proceden de una herramienta Salida de XDF o de una herramienta Entrada de XDF, se utiliza la función rxDForest de RevoScaleR para la estimación del modelo. La ventaja de utilizar la función basada en RevoScaleR es que permite analizar conjuntos de datos mucho más grandes (sin memoria), aunque a costa de una sobrecarga adicional para crear un archivo XDF, además de utilizar un algoritmo que necesita hacer más pasadas en los datos a fin de crear cada árbol en el conjunto, por lo que es mucho más lento que la función randomForest de código abierto. Como resultado, se recomienda reducir la cantidad de árboles (de los 500 árboles predeterminados) que hay en el conjunto.
Parámetros obligatorios
Nombre del modelo: ingresa un nombre para el modelo a fin de identificarlo cuando se haga referencia a este en otras herramientas. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.
Selecciona la variable objetivo: selecciona los datos que se van a predecir. Una variable objetivo también se conoce como respuesta o variable dependiente.
Selecciona las variables predictoras: selecciona los datos que quieres utilizar para influir en el valor de la variable objetivo. Una variable predictora también se conoce como característica o variable independiente. Se puede seleccionar cualquier cantidad de variables predictoras, pero la variable objetivo no debe ser una variable predictora. Cada variable predictora categórica puede tener un máximo de 32 clases. Las columnas que contienen identificadores únicos, como claves primarias subrogadas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Cantidad de árboles que se debe utilizar: ingresa la cantidad de modelos de árbol que quieres incluir en el bosque. El valor predeterminado es 500 basado en el hallazgo de Breiman. Disminuye el valor con un flujo de metadatos XDF si la longitud del tiempo de ejecución del modelo es un inconveniente.
Seleccionar una cantidad específica de variables entre las que seleccionar en cada división: marca esta casilla e ingresa la cantidad de variables que se considerarán en cada división.
Selecciona Personalización del modelo para modificar la configuración del modelo.
Personalización del modelo
Limitar directamente el tamaño total de cada árbol del modelo:
Total de nodos permitidos en un árbol: selecciona esta opción para los modelos que utilizan el modelo randomForest de código abierto.
Profundidad máxima de un árbol modelo: selecciona los modelos que utilizan la función rxDForest de RevoScaleR
Cantidad mínima de registros permitidos en un nodo de árbol: ingresa un valor o utiliza las flechas arriba y abajo para controlar el tamaño del nodo de terminal más pequeño que se permite en cada árbol de ensamble. Si se aumenta esta cantidad, se reducirá la cantidad total de nodos en cada árbol.
Seleccionar los registros para la creación de cada modelo con reemplazo: marca esta casilla para controlar si las réplicas de bootstrap se extraen a partir de toda la muestra de estimación con o sin reemplazo.
Porcentaje de los registros de datos de los que se tomará una muestra para crear cada árbol: ingresa un valor o utiliza las flechas arriba y abajo a fin de controlar si se utilizará toda o solo una parte de la muestra de estimación completa para formar cada réplica de bootstrap.
Opciones de gráficos
Tamaño del gráfico: selecciona pulgadas o centímetros para el tamaño del gráfico.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 ppp); 2x (192 ppp); o 3x (288 ppp).
La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base (puntos): selecciona el tamaño de la fuente del gráfico.
Ver la salida
Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.
Ancla O: muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.
Ancla R: muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.
Configurar la herramienta para el procesamiento en base de datos
La herramienta Modelo de bosque admite el procesamiento en base de datos de Microsoft SQL Server 2016. Visita Información general sobre el procesamiento en base de datos para obtener más información sobre la compatibilidad y las herramientas de la categoría En base de datos.
Cuando se coloca una herramienta Modelo de bosque en el lienzo con otra herramienta de la categoría En base de datos, la herramienta cambia automáticamente a la versión En base de datos. Para cambiar la versión de la herramienta, haz clic con el botón derecho del mouse en la herramienta, selecciona "Elegir la versión de la herramienta" y haz clic en una versión. Visita Analítica predictiva para obtener más información sobre la compatibilidad con analítica predictiva en base de datos.
Conectar una entrada
Conecta un flujo de datos de la categoría En base de datos, que incluya un campo objetivo de interés junto con uno o más campos predictores posibles.
Si la entrada procede de un flujo de datos del tipo En base de datos de SQL Server o Teradata, se debe utilizar la función rxDForest de Microsoft Machine Learning Server (del paquete RevoScaleR) para la estimación del modelo. Esto permite que el procesamiento se realice en el servidor de la base de datos, siempre y cuando el equipo local y el servidor se hayan configurado con Microsoft Machine Learning Server. Esto puede generar una mejora significativa en el rendimiento.
Parámetros obligatorios
Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación. La opción es ingresar un nombre o generar uno automáticamente. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.
Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir.
Selecciona los campos predictores: selecciona los campos del flujo de datos que crees que “causan” los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.
Cantidad de árboles que se debe utilizar: selecciona la cantidad de modelos de árbol que quieres incluir en el bosque. El valor predeterminado es 500 basado en el hallazgo de Breiman. Disminuye el valor con un flujo de metadatos XDF si la longitud del tiempo de ejecución del modelo es un inconveniente.
Seleccionar una cantidad específica de variables entre las que seleccionar en cada división: selecciona la cantidad de variables que se considerarán en cada división.
Utilizar ponderaciones de muestreo para la estimación del modelo: haz clic en la casilla y, luego, selecciona un campo de ponderación del flujo de datos para estimar un modelo que utilice ponderación de muestreo. Si un campo se utiliza tanto como predictor y como variable de ponderación, la variable de ponderación aparecerá en la salida bajo llamada del modelo, precedida de la cadena “Right_”.
Personalización del modelo
Limitar directamente el tamaño total de cada árbol del modelo
Total de nodos permitidos en un árbol: selecciona esta opción para los modelos que utilizan el modelo randomForest de código abierto R.
Profundidad máxima de un árbol modelo: selecciona los modelos que utilizan la función rxDForest de RevoScaleR.
Cantidad mínima de registros permitidos en un nodo de árbol: selecciona un valor para controlar el tamaño del nodo de terminal más pequeño que se permite en cada árbol de conjunto. Si se aumenta esta cantidad, se reducirá la cantidad total de nodos en cada árbol.
Seleccionar los registros para la creación de cada modelo con reemplazo: selecciona esta opción para controlar si las réplicas de bootstrap se extraen a partir de toda la muestra de estimación con o sin reemplazo.
Porcentaje de los registros de datos de los que se tomará una muestra para crear cada árbol: selecciona esta opción para controlar si se utilizará toda o solo una parte de la muestra de estimación completa para formar cada réplica de bootstrap.
Opciones de gráficos
Tamaño del gráfico: selecciona pulgadas o centímetros para el tamaño del gráfico.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 ppp); 2x (192 ppp); o 3x (288 ppp).
La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base (puntos): selecciona el tamaño de la fuente del gráfico.
Ver la salida
Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.
Ancla O: muestra el nombre del modelo y el tamaño del objeto en la ventana de Resultados.
Ancla R: muestra un informe resumido del modelo, el cual incluye un resumen y los gráficos.