Strumento Classificatore Naive Bayes

Esempio di uno strumento

Lo strumento Classificatore Naive Bayes dispone dell'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.

Lo strumento Classificatore Naive Bayes crea un modello di classificazione probabilistica multinominale o binomiale della relazione tra un insieme di variabili predittive e una variabile target categorica. Il classificatore Naive Bayes presuppone che tutte le variabili predittive siano indipendenti tra loro e prevede, in base a un input campione, una distribuzione di probabilità su un set di classi, calcolando quindi la probabilità della variabile target di appartenere a ciascuna classe.

Uno dei principali vantaggi del Classificatore Naive Bayes è il funzionamento ottimale anche con un set di addestramento di dimensioni ridotte. Questo vantaggio deriva dal fatto che il classificatore Naive Bayes è parametrizzato tramite la media e la varianza di ogni variabile indipendentemente da tutte le altre variabili. In molti problemi di classificazione di massima verosimiglianza, la matrice di covarianza è necessaria per la stima delle probabilità, ma set di addestramento di dimensioni ridotte possono generare una matrice di covarianza altamente variabile che, a sua volta, può compromettere le prestazioni dello stimatore di massima verosimiglianza (MLE). Poiché il Classificatore Naive Bayes richiede solo il calcolo di varianze monodimensionali per ciascun predittore, la matrice di covarianza non è necessaria, pertanto l'MLE non incorre nei problemi associati a un set di addestramento di dimensioni ridotte.

Il Classificatore Naive Bayes è utile quando si cerca di classificare un insieme di osservazioni secondo una variabile "classe" target, in particolare nei casi in cui vengono utilizzati solo un set di addestramento di dimensioni ridotte e un numero limitato di predittori. Utilizzando un set di addestramento iniziale, il Classificatore Naive Bayes sviluppa un modello per prevedere la probabilità che una data osservazione appartenga a ciascuna classe della variabile target.

Un semplice esempio consiste nel prevedere se qualcuno che noleggia un nuovo veicolo lo acquisterà al termine del leasing in base alle caratteristiche del veicolo (ad esempio, pickup/berlina/SUV) e del cliente (ad esempio, sesso, età, ecc.). Il Classificatore Naive Bayes permetterebbe all'utente di "assegnare un punteggio" ai futuri individui in base al modello prodotto dal set di addestramento. Questo processo di assegnazione del punteggio produrrebbe alcune probabilità, una per l'acquisto e una per la rinuncia all'acquisto alla fine del contratto di leasing.

Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.

Configurazione dello strumento

Parametri richiesti

Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali, e lo strumento R fa distinzione tra maiuscole e minuscole.
Seleziona la variabile target: seleziona il campo dal flusso di dati da stimare. Questo target deve essere un tipo di stringa.
Seleziona le variabili predittive: scegli i campi dal flusso di dati che ritieni "essere la causa" delle variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Livellamento di Laplace: scegli un valore positivo come parametro di livellamento. L'impostazione predefinita è 0. La funzione Livellamento di Laplace consente all'utente di "livellare" i dati tenendo conto delle combinazioni classe/funzionalità che possono essere completamente assenti dal set di addestramento o che sono altrimenti sottorappresentate in frequenza e a cui, pertanto, sarebbe assegnata una probabilità pari a zero o, quanto meno, inusualmente bassa (a seconda delle circostanze). Ciò è utile quando si tenta di costruire un modello di classificazione utilizzando un set di addestramento di dimensioni ridotte che potrebbe non costituire un campione sufficientemente rappresentativo della popolazione.

Opzioni Grafica

Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi).
- La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
- Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.

Visualizzazione dell'output

Ancoraggio O: oggetto. Consiste in una tabella del modello serializzato con il nome del modello.
Ancoraggio R: report. È costituito dai frammenti di report generati dallo strumento Classificatore Naive Bayes: un riepilogo di base del modello e i grafici degli effetti principali per ogni classe della variabile target.

_{http://en.wikipedia.org/wiki/Naive_Bayes_classifier}