Skip to main content

Regression tool icon Outil Régression

Utilisez l'outil Régression dans le cadre d'un pipeline de machine learning pour identifier une tendance. L'outil fournit plusieurs algorithmes que vous pouvez utiliser pour entraîner un modèle. L'outil vous permet également de régler un modèle en utilisant de nombreux paramètres.

Alteryx Intelligence Suite requis

Cet outil fait partie de Alteryx Intelligence Suite . Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit .

Configuration de l'outil

Cette section contient des informations sur comment configurer l'outil Régression.

Sélectionner un algorithme

Sélectionnez l'algorithme que vous souhaitez utiliser. Vous pouvez choisir Régression linéaire , Arbre de décision , ou Forêt aléatoire .

Configurer les paramètres

Configurez les paramètres. Chaque algorithme a des paramètres spécifiques. Chaque algorithme a également des paramètres généraux et avancés. Les paramètres généraux font partie intégrante de la création d'un modèle précis, même pour les débutants. Les paramètres avancés peuvent améliorer la précision, mais nécessitent une compréhension approfondie de ce que chaque paramètre fait.

Référencez-vous à la table de chaque algorithme pour voir ce que les paramètres font :

Nom

Description

Options

Par défaut

fit_intercept

Décidez si vous souhaitez que l’algorithme calcule l’interception de votre modèle de régression linéaire. Aussi connu sous le nom de « constante », l’interception est la valeur moyenne attendue de y x égale 0.

  • Activé

  • Désactivé

Activé

normalize

Décidez si vous souhaitez que l’algorithme normalise vos cibles. La normalisation ajuste vos cibles de manière à pouvoir les comparer à une échelle commune avec d’autres données, ce qui peut vous aider à identifier les associations dans vos données.

  • Activé

  • Désactivé

Activé

Nom

Description

Options

Par défaut

criterion

Utilisez le paramètre criterion pour sélectionner une méthode pour mesurer la façon dont l’algorithme Arbre de décision divise les données en différents nœuds.

  • mse

  • friedman_mse

  • Erreur absolue moyenne

mse

max_depth

Le paramètre max_depth est le chemin le plus long d'une racine à une feuille d'un arbre. Les plus profonds arbres ont plus de fractionnements et capturent plus d'informations sur les données.

  • none  : les nœuds s’étendent jusqu’à ce que tous les nœuds de feuilles soient purs (en d’autres termes, se composent complètement de données appartenant à une seule classe) ou jusqu’à ce que tous les nœuds de feuilles contiennent moins que ce que vous spécifiez dans le paramètre min_samples_split.

  • int  : limite l’expansion par fractionnement.

Illimité

max_features

Le paramètre max_features définit le nombre maximal de caractéristiques que l'arbre de décision prend en compte lors de la recherche du meilleur premier fractionnement.

  • auto  : évalue un nombre de caractéristiques égale au nombre total de caractéristiques dans le jeu de données.

  • none  : évalue un nombre de caractéristiques égale au nombre total de caractéristiques dans le jeu de données.

  • sqrt  : évalue un certain nombre de caractéristiques égales à la racine carrée du nombre total de caractéristiques dans le jeu de données.

  • log2  : évalue un certain nombre de caractéristiques égales au logarithme binaire du nombre total de caractéristiques.

  • int  : évalue un nombre de caractéristiques à chaque fractionnement égal au nombre que vous sélectionnez.

  • float  : évalue un nombre de caractéristiques égale à une fraction sélectionnée par l’utilisateur du nombre total de caractéristiques.

Automatique

max_leaf_nodes

Le paramètre max_leaf_nodes est la limite supérieure du nombre total de nœuds de feuilles que votre algorithme peut générer. Il développe des nœuds jusqu’au nombre maximum de la manière best-first (le meilleur en premier). L’algorithme détermine quels nœuds sont les meilleurs en fonction de leur capacité de réduction des impuretés. Utilisez le paramètre criterion pour spécifier comment vous voulez mesurer la réduction de l’impureté.

Tout nombre entier (int) ou ( none ).

Aucun

min_impurity_decrease

Le paramètre min_impurity_decrease définit le seuil minimal de réduction des impuretés requis pour que l’arbre de décision se divise en un nouveau nœud. Ainsi, un fractionnement se produit où il diminuerait l’impureté par une quantité égale ou supérieure à min_impurity_decrease . Utilisez le paramètre criterion pour spécifier comment vous voulez mesurer la réduction de l’impureté.

Tout nombre flottant

0.0

min_sample_split

Le paramètre min_samples_split définit le seuil minimal d’échantillons requis pour que l’arbre de décision se divise en un nouveau nœud. L’algorithme peut considérer un seul échantillon ou tous les échantillons.

Tout nombre entier (int) ou fraction (float).

int  : 2

min_weight_fraction_leaf

Le paramètre min_weight_fraction_leaf est le seuil minimum de poids nécessaire pour que l'arbre de décision se fractionne en un nouveau nœud. Ce seuil est égal à la fraction minimale du poids total pour tous les échantillons. L'algorithme Arbre de décision suppose des poids égaux par défaut.

Tout nombre flottant

0.0

presort

Utilisez ce paramètre pour pré-trier les données, ce qui pourrait aider l’algorithme à trouver les meilleures fractionnements plus rapidement.

  • Activé

  • Désactivé

Désactivé

Amorce aléatoire

Le paramètre random_state spécifie le nombre de départ pour générer une séquence pseudo-aléatoire. Si vous sélectionnez none , un générateur de nombre aléatoire choisit un numéro de départ.

  • int

  • Aucun

int  : 10

splitter

Le paramètre splitter est la stratégie utilisée pour fractionner un nœud. Il comprend des options pour le meilleur premier fractionnement et le meilleur fractionnement aléatoire. L’algorithme détermine quels nœuds sont les meilleurs en fonction de leur capacité de réduction des impuretés.

  • best  : cette option nécessite plus de puissance de calcul et comporte le risque de surajustement.

  • random  : cette option peut trouver des chemins à travers l’arbre si certaines associations ont des signaux faibles.

best

Nom

Description

Options

Par défaut

bootstrap

Le bootstrapping, la base de l’ensachage, est une méthode utilisée pour échantillonner le jeu de données à des fins d'entraînement. Cette méthode consiste à créer des sous-échantillons itératifs de votre jeu de données pour simuler de nouvelles données invisibles, que vous pouvez utiliser pour améliorer la généralisabilité de votre modèle.

  • Activé

  • Désactivé

Activé

criterion

Utilisez le paramètre criterion pour sélectionner une méthode pour mesurer la façon dont l’algorithme de forêt aléatoire fractionne vos données en différents nœuds, qui comprennent les nombreux arbres dans votre forêt aléatoire.

  • mse

  • friedman_mse

  • Erreur absolue moyenne

mse

max_depth

Le paramètre max_depth est le chemin le plus long d’une racine à une feuille pour chaque arbre de la forêt. Les plus profonds arbres ont plus de fractionnements et capturent plus d'informations sur les données.

  • none  : les nœuds s’étendent jusqu’à ce que tous les nœuds de feuilles soient purs (en d’autres termes, se composent complètement de données appartenant à une seule classe) ou jusqu’à ce que tous les nœuds de feuilles contiennent moins que ce que vous spécifiez dans le paramètre min_samples_split.

  • int  : limite l’expansion par fractionnement.

Illimité

max_features

Le paramètre max_features définit le nombre maximal de caractéristiques que chaque arbre de décision dans la forêt prend en compte lors de la recherche du meilleur premier fractionnement.

  • auto  : évalue un nombre de caractéristiques égale au nombre total de caractéristiques dans le jeu de données.

  • none  : évalue un nombre de caractéristiques égale au nombre total de caractéristiques dans le jeu de données.

  • sqrt  : évalue un certain nombre de caractéristiques égales à la racine carrée du nombre total de caractéristiques dans le jeu de données.

  • log2  : évalue un certain nombre de caractéristiques égales au logarithme binaire du nombre total de caractéristiques.

  • int  : évalue un nombre de caractéristiques à chaque fractionnement égal au nombre que vous sélectionnez.

  • float  : évalue un nombre de caractéristiques égale à une fraction sélectionnée par l’utilisateur du nombre total de caractéristiques.

Automatique

min_impurity_decrease

Le paramètre min_impurity_decrease définit le seuil minimal de réduction des impuretés requis pour que l’arbre de décision se divise en un nouveau nœud. Ainsi, un fractionnement se produit où il diminuerait l’impureté par une quantité égale ou supérieure à min_impurity_decrease . Utilisez le paramètre criterion pour spécifier comment vous voulez mesurer la réduction de l’impureté.

Tout nombre flottant

0.0

min_sample_split

Le paramètre min_samples_split définit le seuil minimal d’échantillons requis pour que l’arbre de décision (dans une forêt aléatoire) se divise en un nouveau nœud. L’algorithme peut considérer un seul échantillon ou tous les échantillons.

Tout nombre entier (int) ou fraction (float).

int  : 2

min_weight_fraction_leaf

Le paramètre min_weight_fraction_leaf est le seuil minimal de poids requis pour que l’arbre de décision se divise en un nouveau nœud. Ce seuil est égal à la fraction minimale du poids total pour tous les échantillons. L’algorithme de forêt aléatoire suppose des poids égaux par défaut.

Tout nombre flottant

0.0

n_estimators

Le paramètre n_estimators est le nombre d’arbres que vous souhaitez créer dans la forêt.

Tout nombre entier.

100

Amorce aléatoire

Le paramètre random_state spécifie le nombre de départ pour générer une séquence pseudo-aléatoire. Si vous sélectionnez none , un générateur de nombre aléatoire choisit un numéro de départ.

  • int  : sélectionnez un nombre entier pour le générateur de nombres aléatoires.

  • none  : pas de répétabilité.

int  : 10