Strumento Modello potenziato
Esempio di uno strumento
Modello potenziato presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Puoi utilizzare lo strumento Modello potenziato per creare modelli di regressione potenziati generalizzati basati sui metodi di Gradient Boosting I modelli vengono creati aggiungendo in serie semplici modelli ad albero delle decisioni a un insieme di modelli per ridurre al minimo una perdita di funzione appropriata. Questi modelli utilizzano un metodo di apprendimento statistico che:
Determina autonomamente quale sottoinsieme di campi prevede meglio un campo di destinazione.
È in grado di catturare relazioni non lineari e interazioni tra i campi.
Può risolvere automaticamente un'ampia gamma di problemi di regressione e classificazione.
Utilizza lo strumento Modello potenziato per la classificazione, il conteggio dei dati e i problemi di regressione target continua
Questo strumento utilizza lo strumento R. Vai a OpzioniScarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Connessione di un input
Lo strumento Modello potenziato richiede un flusso di dati di input con:
Un campo di interesse target
Due o più campi di previsione
I pacchetti utilizzati nella stima del modello variano in base al flusso di dati di input.
Un flusso di dati Alteryx utilizza la funzione R gbm open source.
Un flusso di metadati XDF proveniente da uno strumento di input XDF o da uno strumento di output XDF utilizza la funzione RevoScaleR rxBTrees.
I dati di un flusso di dati nel database di SQL Server utilizzano la funzione rxBTrees.
L'installazione di Microsoft Machine Learning Server utilizza la funzione RvoScaleR rxBTrees per i tuoi dati nel tuo database SQL Server o Teradata. Ciò richiede che il computer locale e il server siano configurati con Microsoft Machine Learning Server, che consente l'elaborazione nel server di database e comporta un miglioramento significativo delle prestazioni.
Prestazioni dell'algoritmo
Rispetto alle funzioni R open source, la funzione basata su RevoScaleR è in grado di analizzare set di dati molto più grandi. Tuttavia, la funzione basata su RevoScaleR deve creare un file XDF, che aumenta il costo di sovraccarico, utilizza un algoritmo che esegue più passaggi sui dati, aumentando il runtime e non può creare alcuni output di diagnostica del modello.
Configurazione dello strumento per l'elaborazione standard
Scheda Parametri obbligatori
Si tratta dei campi di base necessari per generare un modello potenziato. Imposta i parametri del modello richiesti:
Nome modello: un nome per il modello a cui possono fare riferimento altri strumenti. Il nome o il prefisso del modello deve iniziare con una lettera e può contenere lettere, numeri e i caratteri speciali punto (".") e carattere di sottolineatura ("_"). R is case-sensitive.
Seleziona il campo target: il campo dati da stimare, noto anche come risposta o variabile dipendente.
Seleziona i campi predittivi: i campi dati utilizzati per influenzare il valore della variabile di destinazione, nota anche come feature o variabile indipendente. Almeno due campi predittivi sono obbligatori ma non esiste un limite massimo per il numero di campi predittivi selezionati. La variabile di destinazione stessa non deve essere utilizzata nel calcolo del valore di destinazione, pertanto il campo di destinazione non deve essere incluso nei campi predittivi. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Utilizzare i pesi di campionamento nella stima del modello?: opzione che consente di selezionare un campo che pondera l'importanza attribuita a ogni record durante la creazione di una stima del modello. Se un campo viene utilizzato sia come predittore che come peso campione, il campo della variabile di peso di output verrà anteposto a Right_. Usa l'elenco a discesa Seleziona il campo peso di campionamento per scegliere il campo utilizzato per ponderare i record.
Includere grafici ad effetti marginali?: opzione per includere grafici nel report che mostrano la relazione tra la variabile predittiva e la destinazione, calcolando la media sull'effetto di altri campi predittivi. Usa il livello minimo d'importanza di un campo da includere nei grafici per impostare un valore percentuale che indica la potenza predittiva minima di una variabile da includere nel grafico degli effetti marginali. Una percentuale più alta riduce il numero di grafici ad effetto marginale prodotti.
Scheda Personalizzazione modello
Impostazioni facoltative che permettono di personalizzare il modello di output in base al target e alla modalità di gestione degli alberi decisionali. Queste opzioni possono essere utilizzate per modificare le impostazioni del modello.
Specificare il tipo di target e la distribuzione della funzione di perdita: la categoria di dati nel campo target e la funzione associata che funziona per ottimizzare la creazione del modello.
Target continuo: un target numerico in cui un determinato valore univoco comprende una piccola percentuale delle istanze totali, ad esempio le vendite annuali negozio. Per un target continuo, è necessario ridurre al minimo una funzione di perdita basata su una delle distribuzioni seguenti:
Gaussiano (perdita di errore quadratico)
Laplace (valore assoluto perso)
Perdita distribuzione t
Target conteggio (numero intero): un target numerico per il quale la maggior parte dei valori univoci comprende una grande percentuale delle istanze totali, ad esempio il numero di visite allo studio di un medico che una persona effettua in un anno. Per un obiettivo di conteggio, ridurre al minimo una funzione di perdita basata sulla distribuzione di Poisson.
Binario (due risultati) categorico: un target categorico con due possibili risultati, come la categorizzazione sì-no. Per un target categorico binario, ridurre al minimo una funzione di perdita basata su una delle distribuzioni seguenti:
Bernoulli (regressione logistica)
AdaBoost (perdita esponenziale)
Categorico multinomiale (tre o più risultati): un campo target categorico con un numero limitato di risultati discreti, ad esempio la classificazione A, B o C. Per un obiettivo categorico multinomiale, riduci al minimo una funzione di perdita basata su una funzione di perdita logistica multinomiale, una generalizzazione multinomiale della funzione di perdita di Bernoulli.
Numero massimo di alberi nel modello: il numero di alberi delle decisioni che l'algoritmo può includere nel modello finale. Il valore predefinito è 4000. Un numero maggiore di alberi aumenta il tempo di esecuzione.
Metodo per determinare il numero finale di strutture ad albero nel modello: metodo utilizzato per determinare il numero di alberi decisionali che acquisiscono adeguatamente il comportamento predittivo senza sovradattare i dati campione.
Convalida incrociata: metodo di convalida con uso efficiente delle informazioni disponibili. Consigliato nei casi con dati limitati.
Numero di riduzioni di convalida incrociata: il numero di sottocampioni in cui vengono suddivisi i dati per la convalida o il training. Il valore predefinito è 5. I valori comuni sono 5 e 10. In un caso con 5 pieghe, i dati sono divisi in 5 sottocampioni unici e vengono creati 5 modelli diversi, ognuno utilizzando i dati di 4 dei sottocampioni. Il sottocampione finale viene trattenuto dalla creazione del modello e viene usato per testare l'accuratezza della stima.
Numero dei core del dispositivo da usare nella convalida incrociata: il numero di core del dispositivo utilizzati nell'analisi. Il valore predefinito è 1. Il numero utilizzato deve essere sempre inferiore al numero dei componenti principali disponibili. Per aumentare la velocità di calcolo, aumenta il numero di componenti principali utilizzati.
Campione di test (convalida): metodo di convalida che estrae i campioni dai dati di training. Consigliato nei casi con molti record. Utilizza la percentuale nel campione di stima (training) per determinare la percentuale di record utilizzati nel campione di training, con il resto utilizzato nel campione di test. Il valore predefinito è 50. I valori comuni sono 50% e 75%. Se nel campione di training viene utilizzato il 50% dei record, il restante 50% viene utilizzato per testare l'accuratezza della stima.
Out-of-bag: metodo di convalida che utilizza i record esclusi nella creazione del modello.
La frazione delle osservazioni utilizzata nel campione out-of-bag: una percentuale di campionamento utilizzata per stabilire il numero appropriato di strutture ad albero da includere nella modalità per evitare il sovradattamento. Il valore predefinito è 50%. I valori comuni sono compresi tra 25%-50%.
Compattazione: valore compreso tra 0 e 1 utilizzato per assegnare un peso a ogni struttura ad albero aggiunta al modello. Il valore predefinito è .0020. Valori più piccoli consentono di includere più alberi nel modello, aumentando così il tempo di esecuzione. Un valore di compattazione ridotto può richiedere l'impostazione di un valore maggiore del numero massimo di alberi decisionali per garantire un numero ottimale di strutture ad albero.
Profondità di interazione: il livello di interazione tra i campi predittivi. Ad esempio, un'interazione a tre vie indica che un predittore dipende da altri due predittori per determinare l'impatto sul campo di destinazione. Il valore predefinito è Lineare, presupponendo nessuna interazione tra i campi predittivi. Aumentando la profondità aumenta il tempo di esecuzione.
Numero minimo di oggetti richiesto in ogni nodo della struttura ad albero: parametro che verifica che un albero decisionale abbia le dimensioni sufficienti prima di consentire l'aggiunta di un altro. Il valore predefinito è 10. Aumentando il valore si tradurrà in alberi decisionali più piccoli.
Valore iniziale casuale: valore che determina la sequenza di disegni per il campionamento casuale. Questo fa sì che gli stessi record all'interno dei dati vengano scelti, anche se il metodo di selezione è casuale e non dipende dai dati. Modifica il valore per modificare la sequenza di disegni casuali.
Scheda Opzioni grafiche
Le impostazioni del grafico di output. Le impostazioni predefinite vengono utilizzate a meno che non siano personalizzate.
Dimensioni del grafico: le dimensioni del grafico di output. Seleziona le unità, quindi imposta i valori per larghezza e altezza.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione font di base (punti): la dimensione del carattere in punti.
Configurazione dello strumento per l'elaborazione In-Database
Lo strumento Modello potenziato supporta l'elaborazione in-database di Microsoft SQL Server 2016. Per ulteriori informazioni sul supporto In-Database e sugli strumenti, consulta la sezione Panoramica di In-Database.
Per accedere alla versione In-DB dello strumento Modello potenziato:
Inserire uno strumento In-Database sul canvas. Lo strumento Modello potenziato passa automaticamente a Modello potenziato In-DB.
Fare clic con il pulsante destro del mouse sullo strumento Modello potenziato, scegliere Scegli versione strumento e selezionare Modello potenziato In-DB.
Per ulteriori informazioni sul supporto predittivo In-Database, consulta la sezione Analisi predittive.
Scheda Parametri obbligatori
I campi di base necessari per generare un modello potenziato.
Ogni modello creato richiede un nome a cui altri strumenti possono fare riferimento. L'elaborazione In-DB consente due metodi di creazione dei nomi di modello:
Nome modello specifico: un nome di modello determinato dall'utente. Il nome o il prefisso del modello deve iniziare con una lettera e può contenere lettere, numeri e i caratteri speciali punto (".") e carattere di sottolineatura ("_"). R is case-sensitive.
Genera automaticamente un nome del modello: il nome del modello viene generato automaticamente.
Seleziona il campo target: il campo dati da stimare, noto anche come risposta o variabile dipendente.
Seleziona le variabili predittive: i campi dati utilizzati per influenzare il valore della variabile di destinazione, nota anche come funzionalità o variabile indipendente. Due valori predittivi sono richiesti come minimo, ma non esiste alcun limite superiore al numero di valori predittivi utilizzati. La variabile di destinazione stessa non deve essere utilizzata nel calcolo del valore di destinazione, pertanto il campo di destinazione non deve essere incluso nei campi predittivi. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Usa pesi di campionamento nella stima nel modello: un'opzione che consente di selezionare un campo che pondera l'importanza attribuita a ogni record durante la creazione di una stima del modello. Se un campo viene utilizzato sia come predittore che come peso campione, il campo della variabile di peso di output verrà anteposto a Right_. Usa l'elenco a discesa Seleziona il campo peso di campionamento per scegliere il campo utilizzato per ponderare i record.
Scheda Personalizzazione modello
Impostazioni facoltative che permettono di personalizzare il modello di output in base al target e alla modalità di gestione degli alberi decisionali. Queste opzioni possono essere utilizzate per modificare le impostazioni del modello.
Specifica il tipo di target e la distribuzione della funzione di perdita:
Target continuo: un target numerico in cui un determinato valore univoco comprende una piccola percentuale delle istanze totali, ad esempio le vendite annuali per negozio.
Per un obiettivo continuo, ridurre al minimo una funzione di perdita basata sulla distribuzione gaussiana.
Obiettivo categorico binario: un obiettivo categorico con due possibili risultati, ad esempio la categorizzazione sì-no.
Per un obiettivo categorico binario, ridurre al minimo una funzione di perdita basata sulle distribuzioni di Bernoulli.
Obiettivo categorico multinomiale: un campo target categorico con un numero limitato di risultati discreti, ad esempio la classificazione A, B o C.
Per un obiettivo categorico multinomiale, riduci al minimo una funzione di perdita basata su una funzione di perdita logistica multinomiale, una generalizzazione multinomiale della funzione di perdita di Bernoulli.
Numero massimo di alberi nel modello: il numero di alberi delle decisioni che l'algoritmo può aggiungere da includere nel modello finale. Il valore predefinito è 4000. Un numero maggiore di alberi aumenta il tempo di esecuzione.
La frazione delle osservazioni utilizzate nel campione out-of-bag: percentuale di campionamento utilizzata per ridurre il numero di alberi decisionali inclusi con una valutazione out-of-bag. Il valore predefinito è 50%. I valori comuni sono compresi tra 25%-50%.
Velocità di apprendimento (o compattazione): valore compreso tra 0 e 1 utilizzato per assegnare un peso a ogni struttura ad albero aggiunta al modello. Il valore predefinito è .0020. Valori più piccoli consentono di includere più alberi nel modello, aumentando così il tempo di esecuzione.
Un valore di compattazione ridotto può richiedere l'impostazione di un valore maggiore del numero massimo di alberi decisionali per garantire un numero ottimale di strutture ad albero.
Dimensione albero: per simulare le impostazioni predefinite delle dimensioni dell'albero nello strumento Modello potenziato standard, utilizza i valori predefiniti. Per altre informazioni, vedere controlli rxBTrees.
Profondità massima: la profondità massima di qualsiasi nodo albero [1000]
Contenitore minimo: numero di osservazioni minimo richiesto in un nodo terminale (o foglia) [10]
Divisione minima: numero minimo di osservazioni che devono esistere in un nodo prima di tentare la divisione [Contenitore minimo * 2]
Valore iniziale casuale: valore che determina la sequenza di disegni per il campionamento casuale. Questo fa sì che gli stessi record all'interno dei dati vengano scelti, anche se il metodo di selezione è casuale e non dipende dai dati. Modifica il valore per modificare la sequenza di disegni casuali.
Scheda Opzioni grafiche
Le impostazioni del grafico di output. Le impostazioni predefinite vengono utilizzate a meno che non siano personalizzate.
Dimensione del grafico: seleziona le unità, quindi impostare i valori per la larghezza e l'altezza.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione font di base (punti): la dimensione del carattere in punti.
Visualizzazione dell'output
Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: restituisce il nome e le dimensioni del modello nella finestra Risultati.
Ancoraggio R: visualizza un report del modello che include un riepilogo e tutti i grafici configurati.