Strumento Modello a foresta
Esempio di uno strumento
Il Modello a foresta presenta l'opzione Esempio di uno strumento. Consulta Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Lo strumento Modello a foresta crea un modello che costruisce un insieme di modelli di albero decisionale per prevedere una variabile target in base a una o più variabili di previsione. I diversi modelli vengono costruiti utilizzando campioni casuali dei dati originali, una procedura nota come bootstrapping. Inoltre, per ogni suddivisione di struttura ad albero viene considerato solo un numero limitato di variabili, con il numero determinato impostato automaticamente da R o dall'utente. Per ulteriori informazioni, consulta la sezione Foresta casuale.
Questo strumento utilizza lo strumento R. Vai a OpzioniScarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Per ulteriori informazioni, consulta la sezione Download e utilizzo degli strumenti predittivi.
Configurazione dello strumento per l'elaborazione standard
Connessione di un input
Collega un flusso di dati Alteryx o un flusso di metadati XDF che includa un campo di destinazione di interesse insieme a uno o più possibili campi predittivi.
Se i dati di input provengono da un flusso di dati Alteryx, viene utilizzata la funzione open-source R randomForest (dal pacchetto randomForest) per la stima del modello.
Se i dati di input provengono da uno strumento di output XDF o strumento di input XDF, viene utilizzata la funzione rxDForest per la stima del modello. Il vantaggio di utilizzare la funzione basata su RevoScaleR è che consente di analizzare set di dati molto più estesi (con memoria esaurita), ma al costo di un ulteriore sovraccarico per creare un file XDF. Inoltre, utilizza un algoritmo che deve eseguire più passaggi sui dati per creare ogni struttura ad albero nell'insieme (quindi è molto più lento) rispetto alla funzione open-source randomForest. Di conseguenza, si consiglia di ridurre il numero di strutture ad albero nell'insieme rispetto alle 500 strutture ad albero predefinite.
Parametri richiesti
Nome modello: inserisci un nome del modello per identificare il modello quando viene preso come riferimento in altri strumenti. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (.) e trattino basso (_). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.
Seleziona la variabile target: seleziona i dati da stimare. Una variabile target è anche nota come variabile di risposta o dipendente.
Seleziona le variabili di previsione: seleziona i dati da utilizzare per influenzare il valore della variabile target. Una variabile di previsione è nota anche come caratteristica o variabile indipendente. Puoi selezionare un numero qualsiasi di variabili di previsione, ma la variabile target non deve essere anche una variabile di previsione. Ogni variabile di previsione categorica può avere un massimo di 32 classi. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Numero di strutture ad albero da usare: immetti il numero di modelli di struttura ad albero da includere nella foresta. Il valore predefinito è 500 in base al risultato di Breiman. Riduci il valore con un flusso di metadati XDF se la lunghezza di runtime del modello rappresenta un problema.
Seleziona un numero specifico di variabili tra cui scegliere a ogni suddivisione: seleziona questa casella di spunta e immetti il numero di variabili da considerare a ogni suddivisione.
Seleziona Personalizzazione modello per modificare le impostazioni del modello.
Personalizzazione modello
Limita direttamente la dimensione complessiva di ciascuna struttura ad albero del modello:
Numero totale di nodi consentiti in una struttura ad albero: seleziona i modelli che utilizzano il modello open-source randomForest.
Profondità massima di una struttura ad albero del modello: seleziona i modelli che utilizzano la funzione RevoScaleR rxDForest
Numero minimo di record consentiti in un nodo della struttura: seleziona un valore o utilizza le frecce su e giù per controllare le dimensioni del nodo terminale più piccolo consentito in ogni struttura dell'insieme. Aumentando questo numero si riduce il numero totale di nodi in ogni struttura ad albero.
Seleziona i record per la creazione di ogni modello sostitutivo: seleziona questa casella di spunta per verificare se i replicati di bootstrap sono tratti dal campione di stima completo con o senza sostituzioni.
Percentuale dei record di dati da cui effettuare il campionamento per creare le strutture ad albero: immetti un valore o utilizza le frecce su e giù per controllare se verrà utilizzato tutto o solo una parte del campione di stima completo per formare ogni replica di bootstrap.
Opzioni Grafica
Dimensioni del grafico: seleziona pollici o centimetri per le dimensioni del grafico.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione carattere di base (punti): seleziona la dimensione del carattere nel grafico.
Visualizzazione dell'output
Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.
Ancoraggio R: visualizza un report di riepilogo del modello che include un riepilogo e tutti i tracciati.
Configurazione dello strumento per l'elaborazione In-Database
Lo strumento Modello a foresta supporta l'elaborazione In-Database di Microsoft SQL Server 2016. Consulta la sezione Panoramica In-Database per ulteriori informazioni sul supporto In-Database e sugli strumenti.
Quando uno strumento Modello a foresta viene posizionato sull'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fai clic con il pulsante destro del mouse sullo strumento, seleziona Scegli versione strumento e fai clic su una versione diversa dello strumento. Per ulteriori informazioni sul supporto In-Database predittivo, consulta la sezione Analisi predittiva.
Connessione di un input
Collega un flusso di dati In-Database che includa un campo target di interesse insieme a uno o più possibili campi predittori.
Se l'input proviene da un flusso di dati in-database SQL Server o Teradata, viene utilizzata la funzione Microsoft Machine Learning Server rxDForest (dal pacchetto RevoScaleR) per la stima del modello. Ciò consente di eseguire l'elaborazione sul server del database, purché sia il computer locale che il server siano stati configurati con Microsoft Machine Learning Server, determinando un miglioramento significativo delle prestazioni.
Parametri richiesti
Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. È possibile inserire un nome o generarlo automaticamente. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.
Seleziona la variabile target: seleziona il campo dal flusso di dati da stimare.
Seleziona le variabili predittive: scegli i campi dal flusso di dati che ritieni "essere la causa" delle variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Numero di strutture ad albero da usare: seleziona il numero di modelli di struttura ad albero da includere nella foresta. Il valore predefinito è 500 in base al risultato di Breiman. Riduci il valore con un flusso di metadati XDF se la lunghezza di runtime del modello rappresenta un problema.
Seleziona un numero specifico di variabili tra cui scegliere a ogni suddivisione: seleziona il numero di variabili da considerare a ogni suddivisione.
Usa pesi di campionamento per la valutazione del modello: fai clic sulla casella di controllo, quindi seleziona un campo del peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo è usato sia come predittore che come variabile di peso, quindi la variabile di peso apparirà nella chiamata del modello nell'output con la stringa "Right_" in posizione anteposta.
Personalizzazione modello
Limita direttamente la dimensione complessiva di ciascuna struttura ad albero del modello
Numero totale di nodi consentiti in una struttura ad albero: seleziona i modelli che utilizzano il modello open-source R randomForest.
Profondità massima di una struttura ad albero del modello: seleziona i modelli che utilizzano la funzione RevoScaleR rxDForest.
Numero minimo di record consentiti in un nodo della struttura: seleziona un valore per controllare le dimensioni del nodo terminale più piccolo consentito in ogni struttura dell'insieme. Aumentando questo numero si riduce il numero totale di nodi in ogni struttura ad albero.
Seleziona i record per la creazione di ogni modello sostitutivo: seleziona per verificare se i valori duplici di bootstrap sono tratti dal campione di stima completo con o senza sostituzioni.
Percentuale dei record di dati da cui effettuare il campionamento per creare le strutture ad albero: seleziona per verificare se verrà utilizzato tutto o solo una parte del campione di stima completo per formare ogni replica di bootstrap.
Opzioni Grafica
Dimensioni del grafico: seleziona pollici o centimetri per le dimensioni del grafico.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione carattere di base (punti): seleziona la dimensione del carattere nel grafico.
Visualizzazione dell'output
Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.
Ancoraggio R: visualizza un report di riepilogo del modello che include un riepilogo e tutti i tracciati.