Outil Modèle boosté
Exemple d'outil unique
L'outil Modèle boosté comporte un exemple d'outil unique. Consultez la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.
Utilisez l'outil Modèle boosté pour créer des modèles de régression amplifiés généralisés basés sur des méthodes de stimulation des gradients. Les modèles sont créés en ajoutant en série des modèles d’arbre de décision simple à un ensemble de modèles afin de minimiser une fonction de perte appropriée. Ces modèles utilisent une méthode d'apprentissage statistique qui...
Autodétermine quel sous-ensemble de champs prédit le mieux un champ cible.
Est capable de capturer des relations et des interactions non linéaires entre les champs.
Peut automatiquement traiter une large gamme de problèmes de régression et classification.
Utilisez l’outil Modèle boosté pour les problèmes de classification, de comptage de données et les problèmes de régression de la cible continue.
Cet outil utilise l'outil R. Accédez à OptionsTélécharger les outils prédictifs et connectez-vous au portail Alteryx Downloads and Licenses Portal pour installer R et les paquets utilisés par l'outil R. Consultez Télécharger et utiliser les outils prédictifs.
Connexion d'une entrée
L'outil Modèle boosté nécessite un flux de données d'entrée avec...
Un champ cible d'intérêt
2 champs de prédiction ou plus
Les packages utilisés dans l'estimation du modèle varient en fonction du flux de données d'entrée.
Un flux de données Alteryx utilise la fonction open source R gbm.
Un flux de métadonnées XDF, provenant soit d'un outil Entrée XDF, ou d'un outil Sortie XDF, utilise la fonction RevoScaleR rxBTrees.
Les données d'un flux de données en base de données SQL Server utilisent la fonction rxBTrees.
L'installation de Microsoft Machine Learning Server exploite la fonction RevoScaleR rxBTrees pour vos données dans des bases de données SQL Server ou Teradata. Il faut pour cela que l'ordinateur local et le serveur soient configurés avec Microsoft Machine Learning Server, ce qui permet le traitement sur le serveur de base de données et entraîne une amélioration significative des performances.
Performances de l'algorithme
En comparaison avec les fonctions open source R, la fonction basée sur RevoScaleR peut analyser des jeux de données bien plus grands. Toutefois, la fonction basée sur RevoScaleR doit créer un fichier XDF, ce qui augmente le coût de surcharge, utilise un algorithme qui fait plus de passages à travers les données, augmentant de ce fait le temps d'exécution, et ne peut pas créer des sorties de diagnostic pour certains modèles.
Configurer l'outil pour le traitement standard
Onglet Paramètres obligatoires
Ce sont les champs de base nécessaires pour générer un modèle boosté. Définissez les paramètres de modèle requis :
Nom du modèle : nom du modèle qui peut être référencé par d'autres outils. Le préfixe ou le nom du modèle doit commencer par une lettre et peut contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). R est sensible à la casse.
Sélectionnez le champ cible : le champ de données à prédire, également appelé réponse ou variable dépendante.
Sélectionnez les champs prédicteurs : les champs de données utilisés pour influencer la valeur de la variable cible, également appelée fonctionnalité ou variable indépendante. Un minimum de deux champs prédicteurs est nécessaire mais il n’existe pas de limite supérieure au nombre de champs prédicteurs sélectionnés. La variable cible proprement dite ne doit pas être utilisée dans le calcul de la valeur cible, de sorte que le champ cible ne doit pas être inclus avec les champs prédicteurs. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Utiliser des pondérations d'échantillonnage dans l'estimation du modèle : option permettant de sélectionner un champ qui évalue l'importance donnée à chaque enregistrement lors de la création d'une estimation de modèle. Si un champ est utilisé à la fois comme prédicteur et comme poids d’échantillonnage, le champ variable de poids de sortie sera précédé de Right_. Utilisez le menu déroulant Sélectionnez le champ de pondération d'échantillonnage pour choisir le champ utilisé pour pondérer les enregistrements.
Inclure des tracés d'effets marginaux ? : une option permettant d'inclure des tracés dans le rapport illustrant la relation entre la variable prédictive et la cible, avec une moyenne sur l'effet d'autres champs prédictifs. Utilisez le niveau minimal d'importance d'un champ à inclure dans les tracés pour définir une valeur en pourcentage qui indique la puissance prédictive minimale d'une variable à inclure dans le tracé d'effet marginal. Un pourcentage plus élevé réduit le nombre des tracés d’effets marginaux produits.
Onglet Personnalisation du modèle
Paramètres facultatifs qui personnalisent le modèle de sortie en fonction de la cible et de la manière dont les arbres de décrision sont gérées. Ces options peuvent servir à modifier les paramètres des modèles.
Spécifiez le type de cible et la distribution de la fonction de perte : la catégorie de données dans le champ cible et la fonction associée permettant d'optimiser la création du modèle.
Cible continue : cible numérique dans laquelle une valeur unique donnée comprend un faible pourcentage des instances totales, telles que les ventes annuelles par magasin. Pour une cible continue, minimisez une fonction de perte basée sur l'une des distributions suivantes :
Gaussien (perte d'erreur quadratique)
Laplace (perte de valeur absolue)
perte de distribution t
Cible de comptage (nombre entier) : cible numérique pour laquelle la plupart des valeurs uniques comportent un pourcentage important du nombre total d'instances, par exemple le nombre de visites au bureau d'un médecin qu'une personne effectue en un an. Pour une cible de comptage, minimisez une fonction de perte basée sur la distribution Poisson.
Catégorique binaire (deux résultats) : cible catégorique avec deux résultats possibles, par exemple la catégorisation oui-non. Pour une cible catégorique binaire, minimisez une fonction de perte basée sur l'une des distributions suivantes :
Bernoulli (régression logistique)
AdaBoost (perte exponentielle)
Multinomial (trois résultats ou plus) catégoriel : un champ cible catégorique comprenant un nombre limité de résultats discrets, par exemple la catégorisation A, B ou C. Pour une cible catégorique multinomiale, minimisez une fonction de perte basée sur une fonction de perte logistique multinomiale, une généralisation multinomiale de la fonction de perte de Bernoulli.
Le nombre maximal d'arbres dans le modèle : nombre d'arbres de décision que l'algorithme peut inclure dans le modèle final. La valeur par défaut est 4000. Un nombre plus élevé d’arbres augmente le temps d’exécution.
Méthode de détermination du nombre final d'arbres dans le modèle : méthode utilisée pour déterminer le nombre d'arbres de décision qui capturent correctement le comportement prédictif sans ajuster excessivement les données de l'échantillon.
Validation croisée : méthode de validation utilisant de manière efficace les informations disponibles. Recommandé dans les cas où les données sont limitées.
Nombre de plis de validation croisée : nombre de sous-échantillons dans lesquels les données sont divisées pour la validation ou l'entraînement . La valeur par défaut est 5. Les valeurs courantes sont 5 et 10. Dans un cas avec 5 plis, les données sont divisées en 5 sous-échantillons uniques et 5 modèles différents sont créés, chacun utilisant des données de 4 sous-échantillons. Le sous-échantillon final ne participe pas à la création de modèles et sert à tester la précision de la prédiction.
Nombre de noyaux de machine à utiliser pour la validation croisée : nombre de noyaux de machine utilisés dans l'analyse. La valeur par défaut est 1. Le nombre utilisé doit toujours être inférieur au nombre de noyaux disponibles. Pour augmenter la vitesse de calcul, le nombre de noyaux doit être augmenté.
Échantillon de test (validation) : méthode de validation qui extrait les échantillons des données d'entraînement. Recommandé dans les cas disposant de nombreux enregistrements. Utilisez Pourcentage dans l'échantillon de l'estimation (Entraînement) pour définir le pourcentage d'enregistrements utilisés dans l'échantillon d'entraînement, le reste étant utilisé dans l'échantillon de test. La valeur par défaut est 50. Les valeurs courantes sont 50 % et 75 %. Si 50 % des enregistrements sont utilisés dans l’échantillon d'entraînement, les 50 % restants sont utilisés pour tester la précision de la prédiction.
Out-of-bag : méthode de validation qui utilise des enregistrements qui ont été exclus lors de la création du modèle.
Fraction des observations utilisées dans l'échantillon out-of-bag : le pourcentage d'échantillonnage utilisé pour déterminer le nombre approprié d'arbres à inclure dans le mode pour éviter le surajustement. La valeur par défaut est 50 %. Les valeurs courantes sont 25 % et 50 %.
Rétrécissement : valeur comprise entre 0 et 1 utilisée pour répartir le poids sur chaque arbre ajouté au modèle. La valeur par défaut est 0,0020. Des valeurs plus faibles permettent d’inclure davantage d’arbres dans le modèle, ce qui augmente le temps d’exécution Une faible valeur de rétrécissement peut nécessiter l'augmentation de la valeur du nombre maximal d'arbres de décision pour garantir un nombre optimal d'arbres.
Profondeur d'interaction : niveau d'interaction entre les champs prédictifs. Par exemple, une interaction à trois voies indique qu’un prédicteur dépend de deux autres prédicteurs pour déterminer l’impact sur le champ cible. La valeur par défaut est linéaire, avec l’hypothèse qu’il n’y a aucune interaction entre les champs prédicteurs. L’augmentation de la profondeur augmente le temps d’exécution.
Nombre minimal requis d'objets dans chaque nœud d'arbre : un paramètre qui vérifie si un arbre de décision a une taille suffisante avant d'autoriser l'ajout d'un autre arbre de décision. La valeur par défaut est 10. L’augmentation de la valeur produira des arbres de décision plus petites.
Valeur d'amorce aléatoire : une valeur qui détermine la séquence des extractions pour l'échantillonnage aléatoire. Cela fait que les mêmes enregistrements dans les données sont choisis, bien que la méthode de sélection soit aléatoire et indépendante des données. Changez la valeur pour changer la séquence des extractions aléatoire.
Onglet Options graphiques
Paramètres du graphique de sortie. Les valeurs par défaut sont utilisées, sauf si le paramètre est personnalisé.
Taille du tracé: taille du graphique de sortie. Sélectionnez les unités, puis définissez les valeurs de largeur et de hauteur.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de police de base (points) : taille de la police en points.
Configurer l'outil pour le traitement en BDD
L’outil Modèle boosté prend en charge le traitement en base de données Microsoft SQL Server 2016. Voir Présentation du traitement en base de données pour plus d'informations sur les outils et la prise en charge en BDD.
Pour accéder à la version en base de données de l'outil Modèle boosté...
Placez un outil En base de données dans le canevas. L’outil Modèle boosté se transforme automatiquement en Modèle boosté En base de données.
Cliquez avec le bouton droit sur l'outil Modèle boosté, pointez sur Sélectionner la version de l'outil, puis sélectionnez Modèle boosté en BDD.
Voir Analyses prédictives pour en savoir plus sur la prise en charge en base de données prédictive.
Onglet Paramètres obligatoires
Les champs de base nécessaires pour générer un modèle boosté.
Chaque modèle créé doit recevoir un nom qui peut être référencé par d'autres outils. Le traitement en BDD autorise deux méthodes de création de noms de modèle :
Nom du modèle spécifique : nom du modèle déterminé par l'utilisateur. Le préfixe ou le nom du modèle doit commencer par une lettre et peut contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). R est sensible à la casse.
Générer automatiquementun nom du modèle : le nom du modèle est généré automatiquement.
Sélectionnez le champ cible : le champ de données à prédire, également appelé réponse ou variable dépendante.
Sélectionnez les variables prédictives : les champs de données utilisés pour influencer la valeur de la variable cible, également appelée fonctionnalité ou variable indépendante. Un minimum de deux valeurs de prédiction est nécessaire mais il n’existe pas de limite supérieure au nombre de valeurs de prédiction utilisées. La variable cible proprement dite ne doit pas être utilisée dans le calcul de la valeur cible, de sorte que le champ cible ne doit pas être inclus avec les champs prédicteurs. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Utiliser les pondérations d'échantillonnage dans l'estimation du modèle: option permettant de sélectionner un champ qui évalue l'importance donnée à chaque enregistrement lors de la création d'une estimation de modèle. Si un champ est utilisé à la fois comme prédicteur et comme poids d’échantillonnage, le champ variable de poids de sortie sera précédé de Right_. Utilisez le menu déroulant Sélectionnez le champ de pondération d'échantillonnage pour choisir le champ utilisé pour pondérer les enregistrements.
Onglet Personnalisation du modèle
Paramètres facultatifs qui personnalisent le modèle de sortie en fonction de la cible et de la manière dont les arbres de décrision sont gérées. Ces options peuvent servir à modifier les paramètres des modèles.
Spécifiez le type de cible et la distribution de la fonction de perte :
Cible continue : cible numérique dans laquelle une valeur unique donnée comprend un faible pourcentage des instances totales, telles que les ventes annuelles par magasin.
Pour une cible continue, minimisez une fonction de perte basée sur la distribution gaussienne.
Cible catégorique binaire : cible catégorique avec deux résultats possibles, par exemple la catégorisation oui-non.
Pour une cible catégorique binaire, minimisez une fonction de perte basée sur les distributions de Bernoulli.
Cible catégorique multinominale : un champ cible catégorique avec un nombre limité de résultats discrets, par exemple la catégorisation A, B ou C.
Pour une cible catégorique multinomiale, minimisez une fonction de perte basée sur une fonction de perte logistique multinomiale, une généralisation multinomiale de la fonction de perte de Bernoulli.
Le nombre maximal d'arbres dans le modèle :nombre d'arbres de décision que l'algorithme peut ajouter pour les inclure dans le modèle final. La valeur par défaut est 4000. Un nombre plus élevé d’arbres augmente le temps d’exécution.
Fraction des observations utilisées dans l'échantillon out-of-bag : le pourcentage d'échantillonnage utilisé pour réduire le nombre d'arbres de décision inclus avec une évaluation out-of-bag. La valeur par défaut est 50 %. Les valeurs courantes sont 25 % et 50 %.
Taux d'apprentissage (ou rétrécissement) : valeur comprise entre 0 et 1 utilisée pour placer le poids sur chaque arbre ajouté au modèle. La valeur par défaut est 0,0020. Des valeurs plus faibles permettent d’inclure davantage d’arbres dans le modèle, ce qui augmente le temps d’exécution
Une faible valeur de rétrécissement peut nécessiter l'augmentation de la valeur du nombre maximal d'arbres de décision pour garantir un nombre optimal d'arbres.
Taille de l'arbre : pour imiter les paramètres par défaut de la taille de l’arbre de l'outil Modèle boosté, utilisez les valeurs par défaut. Pour plus d’informations, consultez Les contrôles rxBTrees.
maxDepth: profondeur maximale de tout nœud d’arbre [1000]
minBucket : nombre minimal nécessaire d'observations dans un nœud terminal (ou feuille) [10]
minSplit : nombre minimal d'observations qui doit exister dans un nœud avant qu'une division soit tentée [minBucket * 2]
Valeur d'amorce aléatoire : une valeur qui détermine la séquence des extractions pour l'échantillonnage aléatoire. Cela fait que les mêmes enregistrements dans les données sont choisis, bien que la méthode de sélection soit aléatoire et indépendante des données. Changez la valeur pour changer la séquence des extractions aléatoire.
Onglet Options graphiques
Paramètres du graphique de sortie. Les valeurs par défaut sont utilisées, sauf si le paramètre est personnalisé.
Taille du tracé : sélectionnez les unités, puis définissez les valeurs de largeur et de hauteur.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de police de base (points) : taille de la police en points.
Visualisation de la sortie
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
Ancrage O : produit le nom et la taille du modèle dans la fenêtre Résultats.
Ancrage R : affiche un rapport du modèle qui inclut un récapitulatif et tous les tracés configurés.