Herramienta Comparación de modelos
La herramienta Comparación de modelos compara el rendimiento de distintos modelos predictivos usando una validación o un conjunto de datos de prueba. Esta genera un informe, una tabla de medidas básicas de error y una tabla de resultados de predicción para cada modelo. La herramienta admite todas las clasificaciones binarias (cuando la variable objetivo tiene solo dos niveles, como “Sí” y “No”); clasificaciones multinomiales (cuando la variable objetivo tiene más de dos niveles, como “auto”, “ómnibus”, “tren” y “avión”); y modelos de regresión (cuando la variable objetivo es continua).
En el caso de los problemas de clasificación, el informe contiene la precisión general, la precisión por clase, la puntuación F1 y la matriz de confusión para cada modelo. Para los modelos de clasificación binarios, los Gráficos de diagnóstico de rendimiento, que incluyen comparaciones de cada modelo en forma de un conjunto de curva de elevación, gráfico de ganancia, curva de precisión y recuperación, y, también, se informan gráficos de curva ROC. Para los modelos de regresión, en el informe se incluye la correlación entre los valores predichos y reales, la raíz del error cuadrático medio (RMSE), el error absoluto medio (MAE), el error porcentual medio (MPE) y el error porcentual absoluto medio (MAPE) de las predicciones de cada modelo. Cabe destacar que las medidas MPE y MAPE no se definen si alguno de los valores de la variable objetivo es igual a cero, ya que ambas implican dividir por el valor real de cada observación. En estos casos, se informa el error porcentual absoluto ponderado (la suma de los errores absolutos dividida por la suma de los valores reales) en lugar del MAPE, y el MPE se sustituye por la suma de los errores sobre la suma de los valores reales. Si bien es fácil encontrar ejemplos inventados en los que la suma de los valores objetivo es igual a cero, es poco probable que esto suceda en la práctica real. También se proporciona un gráfico de valores reales frente a valores previstos para cada modelo.
Ten en cuenta que aunque esta herramienta admite la comparación de varios modelos, los usuarios también pueden utilizar un solo modelo y obtener un informe de rendimiento similar al caso de varios modelos. La diferencia entre el informe obtenido de la comparación de modelos y la salida del informe del ancla R de una herramienta predictiva (por ejemplo, Modelo aumentado) es que en el primero, se utiliza un conjunto de datos de prueba que es diferente del conjunto de datos de entrenamiento que crea el modelo, por lo que produce una evaluación de rendimiento de muestra para el modelo.
Conectar entradas
La herramienta Comparación de modelos requiere dos flujos de datos de entrada.
Ancla M: una unión de diferentes modelos generados por cualquier anclaje de salida O de la herramienta predictiva de Alteryx. Para comparar más de un modelo, combina varios objetos de modelo en un único flujo de datos.
Ancla D: el conjunto de datos de prueba, que suele ser diferente del conjunto de datos de entrenamiento que se utilizó para crear los modelos.
Configurar la herramienta
La clase positiva en la variable objetivo (solo clasificación binaria, opcional): opcional. Cuando este valor se deja en blanco, el último valor de un orden alfabético de los nombres de clase se utiliza como clase positiva.
Si la variable objetivo toma los valores “falso” y “verdadero”, la clase positiva pasa a ser de valor “verdadero” de forma predeterminada, ya que queda después de “falso” en orden alfabético.
Restricciones de opciones de configuración
Para problemas de regresión, como la variable objetivo contiene números continuos, el concepto de clase no se aplica. Para los modelos de clasificación multinomiales, el informe proporciona una matriz de confusión completa para cada modelo, por lo que seleccionar o no seleccionar una clase positiva no afectará los resultados. Para los modelos de clasificación binarios, la clase positiva debe ser el resultado en el que se centra el análisis. Por ejemplo, si el objetivo es determinar qué clientes tienen más probabilidades de responder a una campaña de marketing directo y los valores de respuesta están codificados como “Sí” y “No”, es probable que se centre en las respuestas Sí, y esto se debe seleccionar como la “clase positiva” en la comparación de modelos.
Ver la salida
Conecta una herramienta Examinar con cada ancla de salida para ver los resultados.
Ancla E: una tabla de medidas de error.
Ancla P: los valores reales y los diversos valores previstos.
Ancla R: un informe que contiene las medidas de error y un conjunto de gráficos de diagnóstico.