Skip to main content

Regression tool icon Strumento Regressione

Usa lo strumento Regressione come parte di una pipeline di Machine Learning per identificare una tendenza. Lo strumento fornisce diversi algoritmi che è possibile usare per eseguire il training di un modello. Lo strumento consente inoltre di ottimizzare un modello utilizzando molti parametri.

Alteryx Intelligence Suite necessario

Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .

Configurazione dello strumento

Questa sezione contiene informazioni su come configurare lo strumento Regressione.

Selezione dell'algoritmo

Seleziona l'algoritmo che desideri utilizzare. È possibile scegliere Regressione lineare , Albero decisionale o Foresta casuale .

Configurazione dei parametri

Configura i parametri. Ogni algoritmo ha parametri specifici. Ogni algoritmo ha anche parametri generali e avanzati. I parametri generali sono parte integrante della creazione di un modello accurato, anche per i principianti. I parametri avanzati potrebbero migliorare la precisione, ma richiedono una comprensione approfondita delle operazioni eseguite.

Fai riferimento alla tabella per ogni algoritmo per vedere cosa fanno i parametri:

Nome

Descrizione

Opzioni

Predefinito

fit_intercept

Decidi se desideri che l'algoritmo calcoli l'intercetta per il modello di regressione lineare. Noto anche come "costante", l'intercetta è il valore medio previsto di y dove x è uguale a 0.

  • On

  • Off

On

Normalize

Decidi se desideri che l'algoritmo normalizzi i target. La normalizzazione regola gli obiettivi in modo da poterli confrontare su scala comune con altri dati, il che può aiutare a identificare le associazioni nei dati.

  • On

  • Off

On

Nome

Descrizione

Opzioni

Predefinito

Criterion

Utilizza il parametro criterion per selezionare un metodo per misurare il modo in cui l'algoritmo dell'albero delle decisioni suddivide i dati in nodi diversi.

  • mse

  • friedman_mse

  • mae

mse

max_depth

max_depth è il percorso più lungo da una radice a una foglia di un albero. Gli alberi più profondi hanno più divisioni e acquisiscono maggiori informazioni sui dati.

  • none : i nodi si espandono fino a quando tutti i nodi foglia non siano puri (in altre parole, sono completamente costituiti da dati che appartengono a una singola classe) o fino a quando tutti i nodi foglia contengono meno di quanto specificato nel parametro min_samples_split.

  • int : limita l'espansione di divisioni.

none

max_features

max_features imposta il numero massimo di funzionalità considerate dall'albero delle decisioni quando si cerca una prima divisione migliore.

  • auto : consente di valutare un numero di funzionalità pari al numero totale di funzionalità nel set di dati.

  • none : valuta un numero di funzionalità uguale al numero totale di funzionalità nel set di dati.

  • sqrt : valuta un numero di funzionalità pari alla radice quadrata del numero totale di funzionalità nel set di dati.

  • log2 : valuta un numero di funzionalità pari al logaritmo binario del numero totale di funzionalità.

  • int : valuta un numero di funzionalità ad ogni divisione uguale al numero selezionato.

  • float : valuta un numero di funzionalità pari a una frazione selezionata dall'utente del numero totale di funzionalità.

auto

max_leaf_nodes

max_leaf_nodes è il limite verso l'alto sul numero totale di nodi foglia che l'algoritmo può generare. Aumenta i nodi fino al numero massimo in modo ottimale. L'algoritmo determina quali nodi sono i migliori in base alla loro capacità per la riduzione dell'impurità. Utilizza il parametro Criterion per specificare come si desidera misurare la riduzione dell'impurità.

Qualsiasi numero intero o none .

none

min_impurity_decrease

min_impurity_decrease imposta la soglia minima di riduzione dell'impurità necessaria per la suddivisione dell'albero delle decisioni in un nuovo nodo. Quindi una divisione si verifica dove diminuirebbe l'impurità di una quantità uguale o maggiore di min_impurity_decrease . Utilizza il parametro Criterion per specificare come si desidera misurare la riduzione dell'impurità.

Qualsiasi float.

0.0

min_samples_split

min_samples_split imposta la soglia minima di campioni necessari affinché l'albero delle decisioni si divida in un nuovo nodo. L'algoritmo può considerare solo un campione o un numero di tutti i campioni.

Qualsiasi numero intero o frazione.

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf è la soglia minima di peso richiesta dall'albero decisionale per la suddivisione in un nuovo nodo. Tale soglia è pari alla frazione minima dei pesi totali per tutti i campioni. L'algoritmo dell'albero delle decisioni presuppone pesi uguali per impostazione predefinita.

Qualsiasi float.

0.0

presort

Utilizza questo parametro per prendere i dati, che potrebbero aiutare l'algoritmo a trovare le divisioni migliori più velocemente.

  • On

  • Off

Off

seed

random_state specifica il numero iniziale per la generazione di una sequenza pseudocasuale. Se si seleziona none , un generatore di numeri casuali seleziona un numero iniziale.

  • int

  • none

Seed : 10

splitter

splitter è la strategia utilizzata per la divisione in corrispondenza di un nodo. Include opzioni per la migliore prima divisione e la migliore divisione casuale. L'algoritmo determina quali nodi sono i migliori in base alla loro capacità per la riduzione dell'impurità.

  • best : questa opzione richiede una maggiore potenza di calcolo e potrebbe rischiare l'overfitting.

  • random : questa opzione potrebbe trovare percorsi attraverso l'albero se alcune associazioni hanno segnali deboli.

best

Nome

Descrizione

Opzioni

Predefinito

Bootstrap

Il bootstrap, la base del bagging, è un metodo utilizzato per campionare il set di dati a scopo di training. Questo metodo prevede la creazione iterativa di sottocampioni del set di dati per simulare dati nuovi e non visibili, che è possibile usare per migliorare la generalizzabilità del modello.

  • On

  • Off

On

Criterion

Utilizza il parametro Criterion per selezionare un metodo per misurare il livello di suddivisione dei dati in nodi diversi, che comprendono i numerosi alberi diversi nella foresta casuale.

  • mse

  • friedman_mse

  • mae

mse

max_depth

max_depth è il percorso più lungo da una radice a una foglia per ogni albero nella foresta. Alberi più profondi hanno più divisioni e acquisisce più informazioni sui dati.

  • none : i nodi si espandono fino a quando tutti i nodi foglia non siano puri (in altre parole, sono completamente costituiti da dati che appartengono a una singola classe) o fino a quando tutti i nodi foglia contengono meno di quanto specificato nel parametro min_samples_split.

  • int : limita l'espansione di divisioni.

none

max_features

max_features imposta il numero massimo di funzionalità considerate da ogni albero delle decisioni nella foresta quando si cerca una prima divisione migliore.

  • auto : consente di valutare un numero di funzionalità pari al numero totale di funzionalità nel set di dati.

  • none : valuta un numero di funzionalità uguale al numero totale di funzionalità nel set di dati.

  • sqrt : valuta un numero di funzionalità pari alla radice quadrata del numero totale di funzionalità nel set di dati.

  • log2 : valuta un numero di funzionalità pari al logaritmo binario del numero totale di funzionalità.

  • int : valuta un numero di funzionalità ad ogni divisione uguale al numero selezionato.

  • float : valuta un numero di funzionalità pari a una frazione selezionata dall'utente del numero totale di funzionalità.

auto

min_impurity_decrease

min_impurity_decrease imposta la soglia minima di riduzione dell'impurità necessaria affinché un albero delle decisioni si divida in un nuovo nodo. Quindi una divisione si verifica dove diminuirebbe l'impurità di una quantità uguale o maggiore di min_impurity_decrease . Utilizza il parametro Criterion per specificare come si desidera misurare la riduzione dell'impurità.

Qualsiasi float.

0.0

min_samples_split

min_samples_split imposta la soglia minima di campioni necessari affinché l'albero delle decisioni (in una foresta casuale) si divida in un nuovo nodo. L'algoritmo può considerare solo un campione o un numero di tutti i campioni.

Qualsiasi numero intero o frazione.

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf è la soglia minima di peso necessaria affinché un albero delle decisioni venga suddiviso in un nuovo nodo. Tale soglia è pari alla frazione minima dei pesi totali per tutti i campioni. L'algoritmo della foresta casuale assume pesi uguali per impostazione predefinita.

Qualsiasi float.

0.0

n_estimators

n_estimators è il numero di alberi che si desidera creare come parte della foresta.

Qualsiasi numero intero.

100

seed

random_state specifica il numero iniziale per la generazione di una sequenza pseudocasuale. Se si seleziona none , un generatore di numeri casuali seleziona un numero iniziale.

  • seed : seleziona un numero intero per il generatore di numeri casuali.

  • none : nessuna ripetibilità.

Seed : 10