Strumento Graduale
Esempio di uno strumento
Lo strumento Collega presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Lo strumento Regressione graduale determina i migliori predittori da includere in un modello ricavandoli da un insieme più vasto di potenziali predittori per i modelli di regressione lineare, logistica e di altro tipo tradizionale.
Esistono 2 approcci di base utilizzati per implementare la regressione graduale.
La prima (nota come selezione all'indietro) comporta l'uso di un modello che include tutte le variabili che si ritiene possano influenzare la variabile di destinazione, quindi rimuove in sequenza la variabile meno importante dal modello originale in base a una misura di idoneità che si adatta al numero di variabili incluse nel modello. Questo processo continua, con altre variabili rimosse nelle successive fasi precedenti, fino a quando non vi sono ulteriori miglioramenti nella misura di adattamento corretta.
Il secondo approccio di base (noto come selezione variabile diretta) inizia con un modello che include solo una costante, e quindi aggiunge a quel modello una variabile dell'insieme di variabili potenziali che fornisce il miglioramento maggiore nella misura adattata. Questo processo viene ripetuto per aggiungere ulteriori variabili utilizzando una serie di fasi successive aggiuntive, che termina quando non vi sono ulteriori miglioramenti nella misura di adattamento corretta. Nella base della selezione delle variabili precedenti, una variabile che viene rimossa non viene mai più inserita nei passaggi successivi, mentre nella selezione successiva una variabile non viene mai rimossa nei passaggi successivi una volta aggiunta. È possibile utilizzare un approccio ibrido che inizia con un grande modello iniziale ("massimo") e un primo passo indietro, ma poi entrambi i movimenti in avanti e indietro vengono valutati in ogni fase successiva.
Lo strumento di regressione graduale basato su Alteryx R utilizza sia una selezione di variabili all'indietro che una selezione mista di variabili all'indietro e in avanti. Per utilizzare lo strumento, creare innanzitutto un modello di regressione "massimale" che includa tutte le variabili ritenute importanti, quindi utilizzare il graduale Strumento Regressione per determinare quali di queste variabili devono essere rimosse in base a una misura adattata. L'utilizzatore può scegliere tra 2 diverse misure di adattamento, il criterio informativo Akaike** (o AIC) e il criterio bayesiano*** (o BIC). Queste due misure sono simili l'una all'altra, ma il BIC applica una penalità maggiore al numero di variabili incluse nel modello, che di solito si traduce in un modello finale con meno variabili rispetto al caso in cui viene utilizzato l'AIC.
Con questo strumento, se i dati di input provengono da un regolare flusso di dati Alteryx, viene utilizzata la funzione open source R glm per la stima del modello. Se i dati di input provengono da uno strumento di output XDF o strumento di input XDF, viene utilizzata la funzione rxDForest per la stima del modello. Il vantaggio di utilizzare la funzione basata su Revo ScaleR è che consente di analizzare set di dati molto più estesi (con memoria esaurita), ma al costo di un ulteriore sovraccarico per creare un file XDF e dell'impossibilità di creare alcuni output di diagnostica del modello disponibili con la funzione open source R. Inoltre, può generare soltanto un modello di regressione Poisson.
Questo strumento utilizza lo strumento R. Vai a Opzioni Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Collegamento degli input
Il flusso di output da una regressione conteggio, regressione lineare o Strumento Regressione logistica utilizzato per creare il modello "massimo". Il flusso può essere inserito in entrambi i lati dello strumento.
Lo stesso flusso di dati Alteryx o flusso di metadati XDF utilizzato per creare il modello "massimo". Il flusso può essere inserito in entrambi i lati dello strumento.
Configura lo strumento
Utilizza la scheda Configurazione per impostare i controlli per il grafico della serie temporale.
Il nome del nuovo modello: Questo è il modello migliore trovato utilizzando la selezione della variabile graduale in base alla direzione di ricerca e ai criteri di selezione scelti. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.
Direzione di ricerca: Se la direzione di ricerca prevede sia passi indietro che avanti (il metodo inizia con un passo indietro) o solo passi indietro.
Misura adattata regolata: I criteri utilizzati per confrontare diversi modelli e selezionare il modello migliore. Le scelte fornite sono il criterio informativo di Akaike (AIC) o il criterio informativo bayesiano (BIC).
Utilizza il pannello Opzioni grafiche per impostare i controlli per l'output grafico (facoltativo).
Risoluzione grafico: selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Visualizzazione dell'output
Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
O ancora: Consiste in una tabella del modello serializzato con il nome del modello e le dimensioni dell'oggetto.
Ancoraggio R: consiste nei frammenti di report generati dallo strumento Conteggio delle regressioni, ossia riepilogo della statistica, Analisi della devianza di tipo II (ANOD) e Grafici diagnostici di base. La tabella Analisi della devianza di tipo II e i Grafici diagnostici di base non vengono generati quando l'input del modello proviene da uno strumento di output XDF o da uno di input XDF.
*https://en.wikipedia.org/wiki/Stepwise_regression **https://en.wikipedia.org/wiki/Akaike_information_criterion ***https://en.wikipedia.org/wiki/Bayesian_information_criterion