Skip to main content

Logistic Regression Icon Strumento Regressione logistica

Esempio di uno strumento

Conteggio delle regressioni presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.

Lo strumento Regressione logistica crea un modello che mette in relazione un target binario con uno o più predittori per ottenere la probabilità stimata per ognuna delle due possibili risposte per il target. Common logistic regression models include logit, probit, and complementary log-log. Regressione logistica classica

Questo strumento utilizza lo strumento R. Vai a OpzioniScarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.

Configurazione dello strumento per l'elaborazione standard

Connessione di un input

Collega un flusso di dati Alteryx o un flusso di metadati XDF che includa un campo target di interesse insieme a uno o più possibili campi predittivi.

Se i dati di input provengono da un flusso di dati Alteryx, viene utilizzata la funzione open-source R randomForest (dal pacchetto randomForest) per la stima del modello.

Se i dati di input provengono da uno strumento di output XDF o strumento di input XDF, viene utilizzata la funzione rxDForest per la stima del modello. Il vantaggio di utilizzare la funzione basata su Revo ScaleR è che consente di analizzare set di dati molto più estesi (con memoria esaurita), ma al costo di un ulteriore sovraccarico per creare un file XDF e dell'impossibilità di creare alcuni output di diagnostica del modello disponibili con la funzione open source R. Inoltre, può generare soltanto un modello di regressione Poisson.

Configura lo strumento

  • Nome modello: inserisci un nome del modello per identificare il modello quando viene preso come riferimento in altri strumenti. I nomi di modello devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e carattere di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.

  • Seleziona la variabile target: seleziona i dati da stimare. Una variabile target è anche nota come variabile di risposta o dipendente.

  • Seleziona le variabili di previsione: seleziona i dati da utilizzare per influenzare il valore della variabile target. Una variabile di previsione è nota anche come caratteristica o variabile indipendente. Puoi selezionare un numero qualsiasi di variabili di previsione, ma la variabile target non deve essere anche una variabile di previsione. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.

Select Customize to modify the Model, Cross-validation, and Plots settings.

Customize the Model

  • Use sampling weights in model estimation: Select a variable to determine the amount of importance to place on each record when creating a model estimation. Un campo è usato sia come predittore che come variabile di peso, quindi la variabile di peso apparirà nella chiamata del modello nell'output con la stringa "Right_" in posizione anteposta.

  • Use regularized regression: Select to balance the same minimization of sum of squared errors with a penalty term on the size of the coefficients and produce a simpler model.

    • I valori alfa devono essere compresi tra 0 (regressione della cresta) e 1 (lasso) per misurare la quantità di enfasi assegnata al coefficiente.

    • Standardize predictor variables: Select to make all variables the same size based on the algorithm used.

    • Use cross-validation to determine model parameters: Select to perform cross-validation and obtain various model parameters

      • Numero di fold: specifica in quanti sottoinsiemi suddividere i dati. Tieni presente che un numero di fold più elevato determina stime della qualità del modello più affidabili, ma che un numero di piegature minore consente una più rapida esecuzione dello strumento.

      • What type of model: Select the type of model to determine the coefficients.

        • Modello più semplice

        • Modello con errore standard del campionamento inferiore

      • Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. Timestamp deve essere un numero intero positivo.

  • Select model type: Select the type of model to use for predicting the target variable.

    • logit

    • probit

    • log-log complementare

Customize the Cross-Validation

  • Use cross-validation to determine estimates of model quality: Select to perform cross-validation and obtain various model quality metrics and graphs. Some metrics and graphs will be displayed in the static R output, and others will be displayed in the interactive I output.

  • Numero di fold: specifica in quanti sottoinsiemi suddividere i dati. Tieni presente che un numero di fold più elevato determina stime della qualità del modello più affidabili, ma che un numero di piegature minore consente una più rapida esecuzione dello strumento.

  • Number of trials: Select the number of times to repeat the cross-validation procedure. The folds are selected differently in each trial, and the overall results are averaged across all the trials. Tieni presente che un numero di fold più elevato determina stime della qualità del modello più affidabili, ma che un numero di piegature minore consente una più rapida esecuzione dello strumento.

  • Enter positive class for target variable: Some of the measures reported by the tool in binary classification cases (such as true positive rate) require a positive class to be designated. To perform binary classification, type one of the two positive classes of the target variable. If left blank, one of the classes is automatically determined as the positive class. Questa opzione è disponibile solo con input multipli.

  • Use stratified cross-validation: Select so each fold has the same percentage of each class as is present in the entire dataset. Questa opzione è disponibile solo con input multipli.

  • Set seed: Select to ensure the reproducibility of cross-validation and select the value of the seed used to assign records to folds. Choosing the same seed each time the workflow is run guarantees that the same records will be in the same fold each time. Timestamp deve essere un numero intero positivo.

Customize the Plots

Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi) o 3x (288 dpi).

  • La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.

  • Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.

Visualizzazione dell'output

Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • Ancoraggio O: visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.

  • Ancoraggio R: visualizza un report di riepilogo del modello che include un riepilogo e tutti i tracciati.

  • I (Interactive): Displays an interactive dashboard of supporting visuals that allows you to zoom, hover, and click.

Configurazione dello strumento per l'elaborazione In-Database

The Logistic Regression tool supports Oracle, Microsoft SQL Server 2016, and Teradata in-database processing. Consulta la sezione Panoramica In-Database per ulteriori informazioni sul supporto In-Database e sugli strumenti.

Quando uno strumento Modello a foresta viene posizionato sull'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fai clic con il pulsante destro del mouse sullo strumento, seleziona Scegli versione strumento e fai clic su una versione diversa dello strumento. Per ulteriori informazioni sul supporto In-Database predittivo, consulta la sezione Analisi predittiva.

Connessione di un input

Collega un flusso di dati In-Database che includa un campo target di interesse insieme a uno o più possibili campi predittori.

Se l'input proviene da un flusso di dati in-database SQL Server o Teradata, viene utilizzata la funzione Microsoft Machine Learning Server rxDForest (dal pacchetto RevoScaleR) per la stima del modello. Ciò consente di eseguire l'elaborazione sul server del database, purché sia il computer locale che il server siano stati configurati con Microsoft Machine Learning Server, determinando un miglioramento significativo delle prestazioni.

Se l'input proviene da un flusso di dati in-database SQL Server o Teradata, viene utilizzata la funzione Microsoft Machine Learning Server rxDForest (dal pacchetto RevoScaleR) per la stima del modello. Ciò consente di eseguire l'elaborazione sul server del database, purché sia il computer locale che il server siano stati configurati con Microsoft Machine Learning Server, determinando un miglioramento significativo delle prestazioni.

For an in-database workflow in an Oracle database, full functionality of the resulting model object downstream only occurs if the Logistic Regression tool is connected directly from a Connect In-DB tool with a single full table selected, or if a Write Data In-DB tool is used immediately before the Logistic Regression tool to save the estimation data table to the database. Oracle R Enterprise makes use of the estimation data table to provide full model object functionality, such as calculating prediction intervals.

Configura lo strumento

  • Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. È possibile inserire un nome o generarlo automaticamente. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.

  • Seleziona la variabile target: seleziona il campo dal flusso di dati da stimare.

  • Seleziona le variabili predittive: scegli i campi dal flusso di dati che ritieni "essere la causa" delle variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.

  • Omit a model constant: Check this item if you want to omit a constant from the model. This should be done if there is an explicit reason for doing so.

  • Oracle specific options: This option allows for the configuration of additional options only relevant for the Oracle platform.

    • Model type: Select the type of model to use for predicting the target variable.

      • logit

      • probit

      • log-log complementare

    • Save the model to the database: Causes the estimated model object to be saved in the database, and is recommended so that the model objects and estimation tables live together in a centralized location in the Oracle database.

  • Usa pesi di campionamento per la valutazione del modello: fai clic sulla casella di controllo, quindi seleziona un campo del peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo è usato sia come predittore che come variabile di peso, quindi la variabile di peso apparirà nella chiamata del modello nell'output con la stringa "Right_" in posizione anteposta.

  • Teradata specific configuration: Microsoft Machine Learning Server needs additional configuration information about the specific Teradata platform to be used – in particular, the paths on the Teradata server to R's binary executables, and the location where temporary files that are used by Microsoft Machine Learning Server can be written. This information will need to be provided by a local Teradata administrator.

Visualizzazione dell'output

Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • O anchor: Output. Ancoraggio O: visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.

  • Ancoraggio R: report. Ancoraggio R: visualizza un report di riepilogo del modello che include un riepilogo e tutti i tracciati.