Esempio di uno strumento
Il modello Spline presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Lo strumento Modello Spline fornisce l'algoritmo delle spline di regressione adattiva multivariata di Friedman. Questo metodo è un modello di apprendimento statistico moderno che consente di: (1) determinare autonomamente quale sottoinsieme di campi prevede meglio un campo di interesse target; (2) catturare relazioni e interazioni altamente non lineari tra i campi e risolvere automaticamente un'ampia gamma di problemi di regressione e classificazione in modo trasparente per l'utente (l'utente fa solo il minimo indispensabile per specificare un campo target e un insieme di campi predittivi, ma lo strumento può essere ampiamente ottimizzato dagli utenti avanzati).
Lo strumento è applicabile a un'ampia gamma di problematiche, come la classificazione, i dati di conteggio e i problemi di regressione target continua. Per sviluppare un modello, il metodo utilizza un approccio a due passaggi: Nel primo passaggio (noto come passaggio in avanti, simile all'algoritmo di partizionamento ricorsivo utilizzato nello strumento Albero decisionale) si trovano le variabili che hanno maggior peso nel prevedere il target determinato e i "punti di divisione" adeguati (noti come "nodi") nelle variabili. Tuttavia, a differenza di un albero decisionale, è idonea una linea tra nodi adiacenti (chiamata termine) piuttosto che utilizzare salti discreti come avviene negli alberi decisionali. Ciò comporta la costruzione di una funzione lineare a tratti per ogni variabile che può approssimare in modo più preciso qualsiasi relazione tra le variabili target e quelle predittive. Il secondo passaggio (noto come passaggio di potatura o all'indietro) rimuove alcuni nodi nelle variabili (allungando il segmento di linea nei termini rimanenti), riducendo al minimo la possibilità che il modello stia sovradattando il campione di stima e catturando il suo rumore come opposto al segnale sottostante.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Un flusso di dati Alteryx che include un campo target di interesse insieme a uno o più possibili campi predittivi.
Utilizza la scheda Parametri richiesti per impostare i controlli obbligatori per lo strumento Modello Spline.
Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e lo strumento R fa distinzione tra maiuscole e minuscole.
Seleziona il campo target: seleziona il campo dal flusso di dati da stimare.
Seleziona i campi predittivi: scegli i campi dal flusso di dati che potrebbero causare variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Includere grafici degli effetti?: se l'opzione è selezionata, verranno prodotti i grafici degli effetti che mostrano graficamente la relazione tra la variabile predittiva e il target a livelli fissi (la mediana per i predittori numerici, il primo livello per i fattori) di altri campi predittivi. Sono disponibili opzioni che consentono di mostrare solo i campi che hanno un effetto principale sul target, solo gli effetti delle interazioni bidirezionali tra i campi utilizzando un grafico prospettico, oppure sia gli effetti principali che le interazioni bidirezionali.
Utilizza la scheda Personalizzazione del modello (facoltativa) per apportare al modello regolazioni più specifiche.
Specifica il tipo di target e la famiglia GLM: sono supportati cinque tipi di campi target:
Target continui (ad esempio, target numerici in cui un dato valore univoco ha una percentuale relativamente piccola di istanze totali).
Target con gamma distribuita (target numerici strettamente positivi con una percentuale elevata di valori di risposta piuttosto bassi, ma una piccola percentuale di valori relativamente alti)
Target "conteggio" (ad esempio, target numerici a valore intero per i quali la maggior parte dei valori univoci comprende una percentuale relativamente alta di istanze totali, come il numero di visite che una persona effettua in un anno presso uno studio medico).
Target categorici binari (ad esempio, campi target della varietà "sì/no").
Target categorici multinomiali (ad esempio, campi target categorici con un numero limitato di risultati discreti, come la classificazione "A", "B" o "C"). Ogni tipo di campo target può avere una o più funzioni di distribuzione associate (correlate alla misura che l'algoritmo sta tentando di ridurre al minimo).
Each type of target field can have one or more possible associated distribution functions (related to the measure the algorithm is attempting to minimize).
Continuous targets can have either no explicit distribution or Gaussian (in other words, Normal) distribution.
In the case of a Gamma distributed target, the choice is the link function to use (the relationship between the means of the distribution and linear predictor).
Count (integer) targets minimize a loss function based on the Poisson distribution and use either a log (preferred) or identity link function.
Binary categorical targets can use a logit (also used in classical logistic regression), a probit, or a complementary log-log link function.
A multinomial categorical response is treated in a nonstandard way. Specifically, instead of estimating a true multinomial model, a set of binary models (using a logit link function) are estimated. For instance, if the possible responses are "A", "B", or "C", what is estimated is a model of: "A" against any other choice, "B" against any other choice, and "C" against any other choice.
Scala la variabile target: se la variabile target è una variabile continua, e se questa opzione è selezionata, sarà sottoposta a una trasformazione z-score (media zero, deviazione standard di uno) per supportare la stabilità numerica nel passaggio in avanti (prima fase) dell'algoritmo.
Numero massimo di nodi o determinazione automatica (Auto): questa opzione controlla il numero di nodi possibili (suddivisioni) nei campi predittivi nel passaggio in avanti (prima fase) dell'algoritmo. Se si seleziona "Auto", il numero di nodi viene calcolato in base al numero di campi predittivi. Il numero effettivo di nodi nel passaggio in avanti è spesso inferiore al valore massimo consentito.
Profondità di interazione: il livello di interazione tra i campi predittivi.
Nel caso di due campi predittivi che hanno un'interazione bidirezionale, l'effetto che un predittore ha sul target dipende dal livello del secondo predittore.
Nel caso di un'interazione tridirezionale, l'effetto di un campo predittivo su un target dipenderà dai valori degli altri due campi predittivi.
È possibile specificare interazioni fino a cinque vie (profondità di interazione pari a 5). Il valore predefinito di questo parametro è impostato su 1 (ipotesi implicita dell'assenza di interazioni tra i campi predittivi). L'aumento della profondità di interazione può aumentare notevolmente il tempo di esecuzione del modello.
Penalità per termine o nodo: la funzione da ottimizzare contiene una componente di penalità per diminuire la possibilità che il modello finale superi i dati del campione di stima. Il valore predefinito è 2 per un modello con soli effetti principali e 3 se sono consentite interazioni bidirezionali o superiori. Un valore di -1 non comporta alcuna penalità per i nodi o i termini applicati, mentre un valore di 0 applica la penalità predefinita solo ai termini.
Il miglioramento minimo in R quadrato doveva aggiungere un nodo: più alto è il valore di questo termine, maggiore è il miglioramento in R quadrato necessario al modello per aggiungere un nodo.
Distanza minima tra i nodi: se è selezionato 0, la distanza minima consentita è calcolata sulla base di una formula, un valore di 1 consente a qualsiasi valore di una variabile predittiva di essere un nodo (che funziona solo se i dati hanno pochissimo rumore), altrimenti deve essere fornito un valore numerico compreso tra 0 e 1 che indica la distanza come percentuale dell'intervallo di una variabile predittiva.
Nuova penalità variabile: il termine aggiuntivo di penalità inserito nella funzione obiettivo per l'aggiunta di una nuova variabile al modello. Il valore predefinito è 0 (nessuno); il valore può essere compreso tra 0 e 0,5. Come per la penalità per nodo o termine, lo scopo è quello di controllare il sovradattamento
Numero massimo di termini padre considerati in ogni fase del passaggio in avanti: questo termine controlla il numero di termini creati in un passaggio in avanti al fine di velocizzare l'esecuzione. Un valore speciale pari a 0 non pone limiti al termine, mentre un numero maggiore di 0 specifica il numero massimo di termini. Il valore predefinito è 20 termini; i valori comuni sono 20, 10 e 5.
Coefficiente fast MARS aging: per la spiegazione di questo parametro, consulta la sezione 3.1 di Friedman (1993).***
Esegui un'analisi di convalida incrociata: questa opzione consente di eseguire una valutazione di convalida incrociata per verificare se è stata effettuata una potatura sufficiente in relazione al metodo di convalida incrociata generalizzato utilizzato dall'algoritmo. Se questa opzione è selezionata, l'utente può specificare il numero di esecuzioni separate di convalida incrociata, il numero di fold in ciascuna esecuzione (laddove i campioni di convalida incrociata sono stratificati per avere una combinazione comparabile di risposte per un target categorico - ad esempio, un numero comparabile di risposte "sì" e "no" per una variabile categorica binaria) e il valore iniziale casuale per i numeri casuali generati per creare i campioni.
Metodo di potatura: le scelte sono "Eliminazione all'indietro", "Nessuno", "Ricerca esaustiva", "Selezione in avanti" e "Sostituzione sequenziale".
L'eliminazione all'indietro (predefinita) inizia con tutti i nodi e i termini trovati nel passaggio in avanti, quindi rimuove prima il termine meno predittivo (apportando le opportune modifiche ai termini rimanenti interessati) e infine confronta l'effetto sulla misura di convalida incrociata generalizzata, relativa all'intero modello. Se la misura di convalida incrociata generalizzata non viene migliorata rimuovendo un termine, viene restituito il modello creato dopo il passaggio in avanti. In caso di miglioramento della misura di convalida incrociata generalizzata, questo termine viene rimosso dal modello e il processo viene ripetuto per i termini rimanenti. Se in qualsiasi momento la rimozione di un termine non migliora la misura di convalida incrociata generalizzata relativa al modello creato nell'ultima iterazione, il processo viene concluso.
In caso di mancata scelta, nel modello finale vengono utilizzati tutti i termini trovati nel passaggio in avanti.
In una ricerca esaustiva, vengono esaminate tutte le combinazioni dei termini trovati nella fase di ricerca diretta, ma con un costo computazionale molto elevato.
Nell'eliminazione diretta vengono rimossi tutti i termini, ad eccezione dell'intercettazione, e il termine migliore tra quelli trovati nel passaggio in avanti viene determinato e incluso nel modello (supponendo che migliori la misura di convalida incrociata generalizzata rispetto a un modello di sola intercettazione). Questo processo va avanti fino a quando non è possibile aggiungere un termine che migliora la misura di convalida incrociata generalizzata.
Nella sostituzione sequenziale, una soluzione con un determinato numero di termini presenta un termine sostituito da tutti gli altri termini rimanenti nel passaggio in avanti, che non sia già incluso nella serie di termini nel passaggio di potatura. Se viene trovato un nuovo termine che migliora la misura di convalida incrociata generalizzata rispetto al termine originale, il termine originale viene sostituito dal nuovo termine.
Numero massimo di termini contenuti nel modello potato: se viene selezionato 0 (valore predefinito), tutti i termini che rimangono dopo gli altri criteri utilizzati nel passaggio di potatura vengono utilizzati nel modello finale, altrimenti nel modello finale vengono mantenuti solo i termini più importanti fino al numero selezionato.
Use the Graphics Options tab to set the controls for the graphical output:
Plot size: Select inches or centimeters for the size of the graph.
Graph Resolution: Select the resolution of the graph in dots per inch: 1x (96 dpi), 2x (192 dpi), or 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
A higher resolution creates a larger file with better print quality.
Base font size (points): Select the size of the font in the graph.
Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: consiste in una tabella del modello serializzato con il nome del modello.
Ancoraggio R: è costituito dai frammenti di report generati dallo strumento Modello Spline, ossia un riepilogo di base del modello, un grafico dell'importanza variabile (che indica l'importanza relativa dei vari campi del predittore), un grafico diagnostico di base e (facoltativo) i grafici degli effetti.
*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
**Freidman, Jerome H., "Multivariate Adaptive Regression Splines", Stanford University, agosto 1990