Esempio di uno strumento
Lo strumento Regressione logistica presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Lo strumento Regressione logistica crea un modello che mette in correlazione una variabile binaria target con una o più variabili predittive per ottenere la probabilità stimata per ognuna delle due risposte della variabile target. I modelli di regressione logistica comuni includono logit, probit e log-log complementare. Consulta la sezione Regressione logistica.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Collega un flusso di dati Alteryx o un flusso di metadati XDF che includa un campo target di interesse insieme a uno o più possibili campi predittivi.
Se i dati di input provengono da un flusso di dati Alteryx, per la stima del modello vengono utilizzate la funzione open-source Rglm e le funzioni glmnet and cv.glmnet (dal pacchetto glmnet).
Se i dati di input provengono da uno strumento di output XDF o di input XDF, per la stima del modello viene utilizzata la funzione RevoScaleR rxLogit. L'utilizzo della funzione basata su RevoScaleR offre il vantaggio di analizzare set di dati molto più estesi (con memoria esaurita), ma al costo di un ulteriore sovraccarico per creare un file XDF e con l'impossibilità di creare alcuni output di diagnostica del modello disponibili con la funzione open source R. Inoltre, può essere utilizzata solo con la funzione di collegamento logit.
Digita nome modello: inserisci un nome per identificare il modello quando viene preso come riferimento in altri strumenti. I nomi di modello devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e carattere di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e lo strumento R fa distinzione tra maiuscole e minuscole.
Seleziona la variabile target: seleziona i dati da stimare. Una variabile target è anche nota come variabile di risposta o dipendente.
Seleziona le variabili predittive: seleziona i dati da utilizzare per influenzare il valore della variabile target. Una variabile di previsione è nota anche come caratteristica o variabile indipendente. Puoi selezionare un numero qualsiasi di variabili di previsione, ma la variabile target non deve essere anche una variabile di previsione. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Seleziona Personalizza per modificare le impostazioni di Modello, Convalida incrociata e Grafici.
Utilizza pesi di campionamento nella stima del modello: seleziona una variabile per determinare l'importanza da assegnare a ciascun record quando si crea una stima del modello. Se un campo è utilizzato sia come predittore che come variabile di peso, la variabile di peso verrà mostrata nella chiamata del modello del report di output, con la stringa "Right_" preposta ad esso.
Utilizza la regressione regolarizzata: seleziona l'opzione per bilanciare la stessa minimizzazione della somma degli errori quadratici con un termine di penalità per la dimensione dei coefficienti e produrre un modello più semplice.
Inserisci valore di alfa: seleziona un valore compreso tra 0 (regressione della cresta) e 1 (lasso) per misurare la quantità di enfasi assegnata al coefficiente.
Standardizza variabili predittive: seleziona l'opzione per rendere tutte le variabili della stessa dimensione in base all'algoritmo utilizzato.
Utilizza la convalida incrociata per determinare i parametri del modello: seleziona l'opzione per eseguire la convalida incrociata e ottenere vari parametri del modello.
Numero di fold: seleziona il numero di fold in cui suddividere i dati. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.
Che tipo di modello: seleziona il tipo di modello per determinare i coefficienti.
Modello più semplice
Modello con errore standard del campionamento inferiore
Imposta valore iniziale: seleziona l'opzione per garantire la riproducibilità della convalida incrociata e selezionare il valore iniziale da utilizzare per assegnare i record ai fold. Scegliere lo stesso valore iniziale ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record si trovino sempre nello stesso fold. Il valore deve essere un numero intero positivo.
Enter positive class for target variable (optional): Some of the measures reported by the tool in binary classification cases (such as true positive rate) require a positive class to be designated. To perform binary classification, type one of the two positive classes of the target variable. If left blank, one of the classes is automatically determined as the positive class. This option is only available for classification models.
Seleziona tipo di modello: seleziona il tipo di modello da utilizzare per prevedere la variabile target.
logit
probit
log-log complementare
Utilizza la convalida incrociata per determinare le stime della qualità del modello: seleziona l'opzione per eseguire la convalida incrociata e ottenere varie metriche e vari grafici della qualità del modello. Alcuni grafici e metriche vengono visualizzati nell'output R statico, mentre altri vengono visualizzati nell'output I interattivo.
Numero di fold: seleziona il numero di fold in cui suddividere i dati. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.
Numero di prove: seleziona il numero di volte in cui ripetere la procedura di convalida incrociata. I fold vengono selezionati in modo diverso in ogni prova e per tutte le prove viene calcolata la media tra i risultati complessivi. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.
Utilizza convalida incrociata stratificata: seleziona l'opzione in modo che ogni fold abbia la stessa percentuale per ciascuna classe presente nell'intero set di dati. Questa opzione è disponibile solo per i modelli di classificazione.
Imposta valore iniziale: seleziona l'opzione per garantire la riproducibilità della convalida incrociata e selezionare il valore iniziale da utilizzare per assegnare i record ai fold. Scegliere lo stesso valore iniziale ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record si trovino sempre nello stesso fold. Il valore deve essere un numero intero positivo.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O (output): visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.
Ancoraggio R (report): visualizza un report di riepilogo del modello che include un riepilogo e tutti i grafici.
I (interattivo): visualizza un dashboard interattivo di elementi visivi di supporto per ingrandire, passare il mouse e fare clic.
Lo strumento Regressione logistica supporta l'elaborazione In-Database Oracle, Microsoft SQL Server 2016 e Teradata. Consulta la sezione Panoramica In-Database per ulteriori informazioni sul supporto In-Database e sugli strumenti.
Quando uno strumento Regressione logistica viene posizionato nell'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fai clic con il pulsante destro del mouse sullo strumento, seleziona Scegli versione strumento e fai clic su una versione diversa dello strumento. Per ulteriori informazioni sul supporto In-Database predittivo, consulta la sezione Analisi predittiva.
Collega un flusso di dati In-Database che includa un campo target di interesse insieme a uno o più possibili campi predittori.
Se l'input proviene da un flusso di dati In-Database SQL Server o Teradata, per la stima del modello viene utilizzata la funzione Microsoft Machine Learning Server rxLogit (dal pacchetto RevoScaleR). Ciò consente di eseguire l'elaborazione sul server del database, purché sia il computer locale che il server siano stati configurati con Microsoft Machine Learning Server, determinando un miglioramento significativo delle prestazioni.
Se l'input proviene da un flusso di dati In-Database SQL Server o Teradata, per la stima del modello viene utilizzata la funzione Oracle R Enterprise ore.lm (dal pacchetto OREmodels). Ciò consente di eseguire l'elaborazione sul server di database (purché il computer locale e il server siano stati entrambi configurati con Oracle R Enterprise), determinando un miglioramento significativo delle prestazioni.
Per un flusso di lavoro In-Database un database Oracle, la funzionalità completa dell'oggetto modello risultante a valle si ottiene solo se lo strumento Regressione logistica è connesso direttamente da uno strumento Connetti In-DB con una singola tabella completa selezionata o se uno strumento Scrivi dati In-DB viene utilizzato immediatamente prima dello strumento Regressione logistica per salvare la tabella dei dati di stima nel database. Oracle R Enterprise utilizza la tabella dei dati di stima per fornire la funzionalità completa dell'oggetto modello, come il calcolo degli intervalli di previsione.
Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. È possibile inserire un nome o generarlo automaticamente. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e lo strumento R fa distinzione tra maiuscole e minuscole.
Seleziona la variabile target: seleziona il campo dal flusso di dati da stimare.
Seleziona le variabili predittive: scegli i campi dal flusso di dati che ritieni "essere la causa" delle variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Ometti una costante del modello: seleziona questo elemento se si desidera omettere una costante dal modello. L'elemento va selezionato se vi è un motivo esplicito per farlo.
Opzioni specifiche di Oracle: questa opzione consente di configurare solo opzioni aggiuntive rilevanti per la piattaforma Oracle.
Tipo di modello: seleziona il tipo di modello da utilizzare per prevedere la variabile target.
logit
probit
log-log complementare
Salva il modello nel database: consente di salvare l'oggetto modello stimato nel database; opzione consigliata per garantire la convivenza di oggetti modello e tabelle di stima in una posizione centralizzata del database Oracle.
Utilizza pesi di campionamento per la stima del modello: fai clic sulla casella di controllo, quindi seleziona un campo del peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo è usato sia come predittore che come variabile di peso, quindi la variabile di peso apparirà nella chiamata del modello nell'output con la stringa "Right_" in posizione anteposta.
Configurazione specifica di Teradata: Microsoft Machine Learning Server necessita di ulteriori informazioni di configurazione sulla piattaforma Teradata specifica da utilizzare, in particolare i percorsi sul server Teradata agli eseguibili binari di R e la posizione in cui è possibile scrivere i file temporanei utilizzati da Microsoft Machine Learning Server. Queste informazioni dovranno essere fornite da un amministratore locale di Teradata.
Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: output. Consente di visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.
Ancoraggio R: report. Consente di visualizzare un report di riepilogo del modello che include un riepilogo e tutti i grafici.