Strumento Modello Spline
Esempio di uno strumento
Il Modello a foresta presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Il Strumento Modello spline fornisce l'algoritmo multivariato Adaptive regression Splines (o MARTE) di Friedman.* questo metodo è un moderno modello di apprendimento statistico che: (1) autodetermina quale sottoinsieme di campi predice meglio un campo di interesse target; (2) è in grado di catturare relazioni e interazioni altamente non lineari tra campi, e può risolvere automaticamente un'ampia gamma di problemi di regressione e classificazione in modo trasparente per l'utente (l'utente può specificare un campo di destinazione e una serie di campi predittivi, ma lo strumento può essere ampiamente ottimizzato dagli utenti avanzati).
Lo strumento è applicabile a un'ampia gamma di problemi, come la classificazione, i dati di conteggio e i problemi di regressione continua del bersaglio. Il metodo utilizza un approccio in due fasi per sviluppare un modello. Nel primo passo (noto come passaggio in avanti, ed è simile all'algoritmo di partizionamento ricorsivo utilizzato nel Strumento Albero decisionale) si trovano le variabili che contano di più nel prevedere il target determinato, e i "punti di divisione" appropriati (noti come "nodi") nelle variabili. Tuttavia, a differenza di un albero decisionale, una linea tra nodi adiacenti (chiamato termine) è adatta piuttosto che utilizzare salti discreti come avviene negli alberi decisionali. Ciò determina la costruzione di una funzione lineare a tratti per ogni variabile che può approssimare strettamente qualsiasi relazione tra il target e le variabili predittive. Il secondo passo (noto come passo indietro o potatura) rimuove alcuni nodi nelle variabili (allungando il segmento di linea nei termini rimanenti) al fine di ridurre al minimo la possibilità che il modello si sovrapponga al campione di stima e acquisisca il rumore del campione di stima rispetto al segnale sottostante.
Questo strumento utilizza lo strumento R. Vai a OpzioniScarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Input
Un flusso di dati Alteryx che include un campo target di interesse insieme a uno o più possibili campi predittivi.
Configura lo strumento
Usa la scheda Base per impostare i controlli obbligatori per lo strumento Download.
Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.
Seleziona il campo target: seleziona il campo dal flusso di dati da stimare.
Seleziona i campi predittivi: scegli i campi dal flusso di dati che potrebbero causare variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Includere i grafici degli effetti?: Se questa opzione è selezionata, verranno prodotti grafici degli effetti che mostrano graficamente la relazione tra la variabile predittiva e il target a livelli fissi (la mediana per i predittori numerici, il primo livello per i fattori) di altri campi predittivi. Scegli se mostrare solo i campi che hanno un effetto principale sul target, solo gli effetti delle interazioni a due vie tra i campi utilizzando un grafico prospettico oppure sia gli effetti principali che le interazioni a due vie.
Utilizzare la scheda personalizzazione modello (opzionale) per apportare regolazioni più specifiche al modello.
Specificare il tipo di destinazione e la famiglia GLM: Sono supportati cinque tipi di campi di destinazione:
Target continui (ad esempio, target numerici in cui un dato valore univoco ha una percentuale relativamente piccola delle istanze totali).
Target con distribuzione gamma (target numerici rigorosamente positivi che hanno una percentuale elevata di valori di risposta abbastanza bassi, ma una piccola percentuale di valori relativamente alti)
Target conteggio (numero intero): un target numerico per il quale la maggior parte dei valori univoci comprende una grande percentuale delle istanze totali, ad esempio il numero di visite allo studio di un medico che una persona effettua in un anno.
Target categorici binari (ad esempio, campi target della varietà "sì/no").
Obiettivo categorico multinomiale: un campo target categorico con un numero limitato di risultati discreti, ad esempio la classificazione A, B o C. Ogni tipo di campo di destinazione può avere una o più possibili funzioni di distribuzione associate (correlate alla misura che l'algoritmo sta tentando di ridurre a icona).
I target continui possono non avere una distribuzione esplicita o una distribuzione gaussiana (in altre parole, normale).
Nel caso di un target distribuito gamma, la scelta è la funzione di collegamento da utilizzare (la relazione tra la media della distribuzione e il predittore lineare).
Gli obiettivi di conteggio (numero intero) riducono al minimo una funzione di perdita basata sulla distribuzione di Poisson e utilizzano una funzione log (preferita) o Identity link.
I target categorici binari possono utilizzare un logit (utilizzato anche nella regressione logistica classica), un probit o una funzione di collegamento log-log complementare.
Una risposta categorica multinomiale è trattata in modo non standard. In particolare, invece di stimare un vero modello multinomiale, viene stimato un insieme di modelli binari (usando una funzione di collegamento logit). Ad esempio, se le risposte possibili sono "A", "B" o "C", ciò che viene stimato è un modello di: "A" contro qualsiasi altra scelta, "B" contro qualsiasi altra scelta e "C" contro qualsiasi altra scelta.
Scala la variabile target: se la variabile target è una variabile continua e questa opzione è selezionata, sarà sottoposta a una trasformazione z-score (zero medio, deviazione standard di uno) per aiutare con la stabilità numerica nel passaggio in avanti (primo stadio) dell'algoritmo.
Il numero massimo di nodi o determina automaticamente (Auto): questa opzione controlla il numero di nodi possibili (spaccature) nei campi predittivi nel passaggio in avanti (primo stadio) dell'algoritmo. Se si seleziona "Auto", il numero di nodi viene calcolato in base al numero di campi predittivi. Il numero effettivo di nodi nella passata in avanti è spesso inferiore al massimo consentito.
Profondità di interazione: il livello di interazione tra i campi predittivi.
Nel caso di 2 campi predittivi che hanno un'interazione bidirezionale l'uno con l'altro, l'effetto che un predittore ha sul bersaglio dipende dal livello del secondo predittore.
Nel caso di un'interazione a tre vie, l'effetto di un campo predittivo su un bersaglio dipenderà dai valori di altri due campi predittivi.
È possibile specificare fino a interazioni a cinque vie (una profondità di interazione di 5). Il valore predefinito di questo parametro è impostato su 1 (presupposto implicito di nessuna interazione tra i campi predittivi). L'aumento della profondità di interazione può aumentare notevolmente il runtime del modello.
Penalità per termine o nodo: la funzione da ottimizzare contiene una componente di penalità per ridurre la possibilità che il modello finale si sovrapponga ai dati del campione di stima. Il valore predefinito è 2 per un modello con solo effetti principali e 3 se sono consentite interazioni bidirezionali o superiori. Un valore di -1 non comporta penalità per nodi o termini applicati, mentre un valore 0 applica la penalità predefinita solo ai termini.
Il miglioramento minimo di R-Squared aveva bisogno di aggiungere un nodo aggiuntivo: più alto è il valore di questo termine, più alto è il miglioramento di R-Squared per il modello al fine di aggiungere un nodo.
La distanza minima tra i nodi: se è selezionato 0, la distanza minima consentita è calcolata in base a una formula, un valore di 1 consente a uno qualsiasi dei valori di una variabile predittiva di essere un nodo (che funziona bene solo se i dati hanno pochissimo rumore), altrimenti è necessario fornire un valore numerico compreso tra 0 e 1 che indica la distanza come percentuale dell'intervallo di una variabile predittiva.
Nuova sanzione variabile: la sanzione aggiuntiva aggiunta alla funzione obiettivo per l'aggiunta di una nuova variabile al modello. Il valore predefinito è 0 (nessuno) e questo valore può essere compreso tra 0 e 0,5. Come per la penalità per nodo o termine, lo scopo è quello di controllare l'eccesso di equipaggiamento
Il numero massimo di termini padre considerati in ogni fase del passaggio forward: questo termine controlla il numero di termini creati in un passaggio forward, che può accelerare l'esecuzione. Un valore speciale di 0 non pone limiti al termine, mentre un numero maggiore di 0 specifica il numero massimo di termini. Il valore predefinito è 20 termini, i valori comuni sono 20, 10 e 5.
Il coefficiente di invecchiamento rapido SU MARTE: Vedere la sezione 3,1 di Friedman (1993) per una spiegazione di questo parametro.***
Eseguire un'analisi di convalida incrociata: Questa opzione consente una valutazione di convalida incrociata per stabilire se sia stata effettuata una potatura sufficiente rispetto al metodo di convalida incrociata generalizzato utilizzato dall'algoritmo. Se questa opzione è selezionata, l'utente può specificare il numero di esecuzioni di convalida incrociata separate, il numero di pieghe in ciascuna esecuzione di convalida incrociata, se i campioni di convalida incrociata sono stratificati per avere una combinazione comparabile di risposte per un target categorico (ad esempio, un numero comparabile di risposte "sì" e "no" per una variabile categorica binaria) e il valore di serie casuale per i numeri casuali generati per creare i campioni.
Il metodo di potatura: le scelte sono "eliminazione indietro", "nessuno", "ricerca esaustiva", "selezione avanti" e "sostituzione sequenziale".
L'eliminazione all'indietro (il valore predefinito) inizia con tutti i nodi e i termini trovati nel passaggio in avanti, quindi rimuove prima il termine meno predittivo (apportando adeguamenti appropriati ai restanti termini interessati), quindi confronta l'effetto sulla misura di convalida incrociata generalizzata rispetto al modello completo. Se la misura di convalida incrociata generalizzata non viene migliorata rimuovendo un termine, viene restituito il modello creato dopo il passaggio in avanti. Se la misura di convalida incrociata generalizzata è migliorata, questo termine viene rimosso dal modello e il processo viene ripetuto per i restanti termini. Se in qualsiasi momento la rimozione di un termine non migliora la misura di convalida incrociata generalizzata relativa al modello creato nell'ultima iterazione, il processo viene terminato.
Se la scelta non è nessuna, tutti i termini presenti nella passata anteriore vengono utilizzati nel modello finale.
In una ricerca esaustiva, vengono esaminate tutte le combinazioni dei termini trovati nella fase di ricerca avanzata, ma con un costo di calcolo molto elevato.
Nella cancellazione in avanti tutti i termini tranne l'intercetta vengono rimossi, e quindi il termine migliore di quelli trovati nel passaggio in avanti viene determinato e incluso nel modello (supponendo che migliori la misura di convalida incrociata generalizzata rispetto a un modello di sola intercettazione). Questo processo viene proseguito fino a quando non è possibile aggiungere un termine aggiuntivo che migliori la misura generalizzata di convalida incrociata.
Nella sostituzione sequenziale, una soluzione con un determinato numero di termini ha un termine sostituito da tutti gli altri possibili termini rimanenti trovati nel passaggio successivo, che non è già incluso nell'insieme di termini nel passaggio di potatura. Se si riscontra un nuovo termine che migliora la misura generalizzata di convalida incrociata rispetto al termine originale, il termine originale viene sostituito dal nuovo termine.
Il numero massimo di termini nel modello potato: se è selezionato 0 (impostazione predefinita), tutti i termini che rimangono dopo gli altri criteri utilizzati nel passaggio di potatura vengono applicati nel modello finale, altrimenti, solo i termini più importanti fino al numero selezionato vengono mantenuti nel modello finale.
Utilizza il pannello Opzioni grafiche per impostare i controlli per l'output grafico (facoltativo).
Dimensioni del grafico: seleziona pollici o centimetri per le dimensioni del grafico.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione carattere di base (punti): seleziona la dimensione del carattere nel grafico.
Visualizzazione dell'output
Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: consiste in una tabella del modello serializzato con il nome del modello.
R Anchor: È costituito dai frammenti di report generati da Strumento Modello spline: Un riepilogo del modello di base, un grafico di importanza variabile (che indica l'importanza relativa dei diversi campi del predittore), un grafico di diagnostica del modello di base e (facoltativamente) i grafici degli effetti.
https://en.wikipedia.org/wiki/Confusion_matrix
**Freidman, Jerome H., "Multivariate Adaptive regression Splines", Stanford University, agosto 1990