Strumento Confronto dei modelli
Lo strumento Confronto dei modelli confronta le prestazioni di uno o più modelli predittivi diversi in base all'utilizzo di un set di dati di validazione o di test. Genera un report, una tabella delle misure degli errori di base e una tabella dei risultati delle previsioni per ciascun modello. Lo strumento supporta tutti i modelli di classificazione binaria (quando la variabile target presenta solo due livelli, ad esempio "Sì" e "No"), di classificazione multinomiale (quando la variabile target presenta più di due livelli, come "automobile", "autobus" "treno" e "aereo") e di regressione (variabile target continua).
Per i problemi di classificazione, il report fornisce la precisione complessiva, la precisione per classe, il punteggio F1 e la matrice di confusione per ciascun modello. Per i modelli di classificazione binaria, vengono riportati anche i grafici di diagnostica delle prestazioni, che includono confronti di ciascun modello sotto forma di serie di curve di accuratezza, grafici del guadagno, curve di precisione e richiamo e curve ROC. Per i modelli di regressione, il report fornisce la correlazione tra i valori previsti ed effettivi, la radice dell'errore quadratico medio (RMSE), l'errore assoluto medio (MAE), l'errore percentuale medio (MPE) e l'errore medio assoluto percentuale (MAPE) delle previsioni di ciascun modello. Va notato che le misure di MPE e MAPE non sono definite se uno qualsiasi dei valori della variabile target è uguale a zero, in quanto entrambe vanno divise per il valore effettivo di ciascuna osservazione. In questi casi viene riportato l'errore percentuale assoluta ponderata (la somma degli errori assoluti diviso la somma dei valori effettivi) al posto del valore MAPE e la somma degli errori diviso la somma dei valori effettivi al posto del valore MPE. Anche se è facile simulare esempi in cui la somma dei valori target è uguale a zero, è improbabile che questa condizione si verifichi nella realtà. Viene inoltre fornito un grafico di confronto dei valori effettivi con quelli previsti per ciascun modello.
Tieni presente che, sebbene questo strumento supporti il confronto di più modelli, gli utenti possono utilizzare anche un solo modello e ottenere un report delle prestazioni simile a quello generato con più modelli. La differenza tra il report ottenuto dal confronto dei modelli e quello derivato dall'ancoraggio R di uno strumento predittivo (ad esempio Modello potenziato) è che il primo utilizza un set di dati di test diverso dal set di dati di addestramento utilizzato per creare il modello, di conseguenza fornisce una valutazione di esempio delle prestazioni per il modello.
Collegamento degli input
Lo strumento Confronto dei modelli richiede due flussi di dati di input.
Ancoraggio M: unione di diversi modelli generati dall'ancoraggio di output O di qualsiasi strumento predittivo di Alteryx. Per confrontare più di un modello, è necessario combinare più oggetti in un unico flusso di dati.
Ancoraggio D: il set di dati di test, che solitamente è diverso dal set di dati di addestramento utilizzato per creare i modelli.
Configura lo strumento
La classe positiva nella variabile target (solo classificazione binaria, facoltativo): facoltativo. Quando questo valore viene lasciato vuoto, l'ultimo valore in ordine alfabetico dei nomi delle classi viene utilizzato come classe positiva.
Se la variabile target assume i valori "False" e "True", la classe positiva diventa "True" per impostazione predefinita, poiché è successiva a "False" in ordine alfabetico.
Vincoli delle opzioni di configurazione
Per i problemi di regressione, poiché la variabile target contiene numeri continui, il concetto di classe non si applica. Per i modelli di classificazione multinomiale, il report fornisce una matrice di confusione completa per ciascun modello, quindi la scelta o meno di una classe positiva non influirà sugli output. Per i modelli di classificazione binaria, la classe positiva dovrebbe essere il risultato su cui è incentrata l'analisi. Ad esempio, se l'obiettivo è quello di determinare quali clienti sono più propensi a rispondere a una campagna di marketing diretto e i valori di risposta sono codificati come "Sì" e "No", l'attenzione sarà probabilmente rivolta alle risposte "Sì" e queste dovrebbero essere selezionate come "classe positiva" nel confronto dei modelli.
Visualizzazione dell'output
Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio E: una tabella delle misure degli errori.
Ancoraggio P: i valori effettivi e i diversi valori previsti.
Ancoraggio R: un report contenente le misure degli errori e un set di grafici diagnostici.