Strumento Macchina a vettori di supporto

Esempio di uno strumento

Lo strumento Macchina a vettori di supporto dispone dell'opzione Esempio di uno strumento. Consulta Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.

Le macchine a vettori di supporto (SVM, Support Vector Machine) o le reti a vettori di supporto (SVN, Support Vector Network) sono un insieme diffuso di algoritmi di apprendimento supervisionati, originariamente sviluppati per problemi di classificazione (target categorico) e successivamente estesi a problemi di regressione (target numerico). Le SVM sono diffuse perché sono efficienti in termini di memoria, sono in grado di gestire un gran numero di variabili predittive, (anche se possono fornire adattamenti scadenti se il numero di predittori supera il numero di record di stima), e sono versatili poiché supportano un gran numero di funzioni "kernel" diverse.

L'idea alla base del metodo è trovare la migliore equazione di una linea (un predittore), un piano (due predittori) oppure un iperpiano (tre o più predittori) che separi al massimo i gruppi di righe, sulla base di una misura della distanza, in diverse categorie a seconda della variabile target. Una funzione del kernel fornisce la misura della distanza che fa sì che i record vengano collocati nello stesso gruppo o in gruppi diversi e comporta l'adozione di una funzione delle variabili predittive per definire la metrica della distanza.

Un breve video che illustra come funziona

e una discussione molto accessibile sull' argomento può essere trovata qui. La misura in cui i gruppi sono separati a seconda della funzione del kernel utilizzata è nota come margine massimo. Infine, la separazione dei gruppi può non essere perfetta, ma si può anche specificare un parametro di costo (che è il costo correlato all'inserimento di un record di stima nel gruppo "sbagliato").

Questo strumento utilizza il pacchetto e1071 R.

Questo strumento utilizza lo strumento R. Vai a OpzioniScarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.

Connessione di un input

Connetti un flusso di dati Alteryx che include un campo target di interesse insieme a uno o più possibili campi predittivi.

Configura lo strumento

Parametri richiesti

Nome modello: ogni modello richiede un nome affinché sia possibile identificarlo in seguito. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (.) e trattino basso (_). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.
Seleziona il campo target: seleziona il campo dal flusso di dati da stimare.
Seleziona i campi predittivi: scegli i campi dal flusso di dati che potrebbero causare variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Scegli il metodo di classificazione o regressione in base alla variabile target da stimare. In genere, se la variabile target scelta è un valore di tipo stringa o booleano, probabilmente si tratta di un problema di classificazione. Se il valore è numerico, è probabile che si tratti di un problema di regressione.
- Classificazione:
  - Un riepilogo di base del modello: la chiamata di funzione in R, target, predittori e parametri correlati.
  - Prestazioni dei modelli:
    una matrice di confusione
    Tracciati di classificazione SVM
    Il report spiega come interpretare ogni misura di valutazione delle prestazioni.
- Opzioni di classificazione:
  - Classificazione C: ottimizza il piano decisionale, consentendo un certo margine di errore.
  - Classificazione nu: simile alla classificazione C, ma consente all'utente di limitare la quantità di errore selezionando il valore di nu.
- Regressione:
  - Un riepilogo di base del modello: la chiamata di funzione in R, target, predittori e parametri correlati.
  - Prestazioni dei modelli:
    Errore quadratico medio radice
    R quadrato
    mae
    Errore mediano assoluto
    Tracciato residuo
    Distribuzione residua
    Il report spiega come interpretare ogni misura di valutazione delle prestazioni.
- Opzioni di regressione:
  - Regressione epsilon
  - Regressione nu: simile alla regressione epsilon, ma consente all'utente di limitare il margine di errore selezionando il valore di nu.

Personalizzazione del modello (facoltativa)

La sezione di personalizzazione del modello è dove si sceglie il tipo di kernel e i parametri correlati di ogni kernel. Seleziona Specifica i parametri del modello per personalizzare il modello.

L'utente fornisce i parametri: seleziona per impostare direttamente i parametri necessari.

Tipo di kernel: determina la metrica utilizzata per misurare la separazione tra i gruppi

Lineare: utile quando la relazione tra le classi e i predittori è una linea semplice, un piano o un iperpiano.
- costo: il costo associato al raggruppamento errato di un record. Un valore inferiore del costo consente un certo margine di errore nella formazione di gruppi di record per evitare il sovradattamento.
Polinomiale: la distanza viene misurata utilizzando una funzione polinomiale delle variabili predittive.
- costo: il costo associato al raggruppamento errato di un record. Un valore inferiore del costo consente un certo margine di errore nella formazione di gruppi di record per evitare il sovradattamento.
- grado: grado del kernel polinomiale. L'aumento del grado del polinomio consente di rendere più flessibile il margine tra i gruppi, riducendo quindi l'errore per il campione di stima. Tuttavia, al costo di un sovradattamento del modello al campione di stima.
- gamma: coefficiente del termine del prodotto interno nel kernel polinomiale.
- coef0: termine costante nella formulazione polinomiale.
Radiale (impostazione predefinita): valido per i dati separabili non lineari.
- costo: consente un certo margine di errore nella classificazione per evitare il sovradattamento.
- gamma: coefficiente del termine di potenza nel kernel della funzione di base radiale. Più grande è la gamma, più ricco è lo spazio delle funzionalità, quindi meno grado di errore per il set di addestramento; tuttavia, può anche portare ad un sovradattamento errato.
Sigmoid: utilizzato principalmente come proxy per le reti neutrali.
- gamma: definisce l'influenza sull'esempio di addestramento.
- coef0: il termine costante nel kernel sigmoid.

Parametri di sincronizzazione della macchina: seleziona questa opzione per fornire un intervallo di parametri e individuare quelli migliori dal punto di vista computazionale in una griglia di valori possibili. Si tratta di un'operazione più costosa dal punto di vista computazionale e quindi richiede più tempo perché esegue una convalida incrociata per 10 volte, al fine di testare il modello su valori di parametri multipli. Tuttavia, è probabile che risulti in un modello più adattato ai dati.

I parametri da selezionare in questo caso sono analoghi a quelli della sezione "L'utente fornisce i parametri", ma con le seguenti differenze:

Numero di candidati: quanti valori dei parametri l'utente desidera testare (impostazione predefinita: 5).
Tipo di kernel (ricerca griglia): consulta la sezione "L'utente fornisce i parametri". L'utente specifica i valori min e max di alcuni parametri. Il modello genera un certo numero di candidati impostato in "Numero di candidati" e trova quello migliore eseguendo 10 convalide incrociate.

Opzioni Grafica

Dimensione del tracciato: consente di imposta le dimensioni di larghezza e altezza del grafico risultante, utilizzando pollici o centimetri.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi) o 3x (288 dpi).
- La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
- Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione carattere di base: il numero di punti del carattere di base utilizzato nei tracciati prodotti dalla macro

Visualizzazione dell'output

Ancoraggio O: l'output "O" consiste in una tabella del modello serializzato con il relativo nome del modello. Dopo aver ottenuto l'output dallo strumento SVM, puoi utilizzare uno strumento per il punteggio e un set di dati di test.
Ancoraggio R: l'output "R" è costituito dai frammenti di report generati dallo strumento Macchina a vettori di supporto. Il report è diverso per la classificazione e la regressione, poiché le due operazioni hanno metodi di valutazione delle prestazioni diversi.