Skip to main content

Forest Model Tool Icon Outil Modèle de forêt

Exemple d'outil unique

L'outil Modèle de forêt dispose d'un exemple d'outil unique. Accédez à la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

L'outil Modèle de forêt crée un modèle qui construit un ensemble de modèles d'arbre de décision pour prédire une variable cible sur la base d'une ou plusieurs variables prédictives. Les différents modèles sont construits à l'aide d'échantillons aléatoires des données d'origine (procédure appelée « bootstrapping »). En outre, seul un nombre limité de variables est pris en compte à chaque fractionnement d'arbre, le nombre déterminé étant défini automatiquement par R ou par l'utilisateur. Rendez-vous sur Forêt aléatoire pour plus d'informations.

Cet outil utilise l'outil R. Accédez à OptionsTélécharger les outils prédictifs et connectez-vous au portail Alteryx Downloads and Licenses Portal pour installer R et les paquets utilisés par l'outil R. Pour plus d'informations, accédez à Télécharger et utiliser les outils prédictifs.

Configurer l'outil pour le traitement standard

Connexion d'une entrée

Connectez un flux de données Alteryx ou un flux de métadonnées XDF qui inclut un champ cible d'intérêt avec un ou plusieurs champs prédicteurs possibles.

Si les données d'entrée proviennent d'un flux de données Alteryx, la fonction randomForest open source R (dans le package randomForest) est utilisée pour l'estimation du modèle.

Si les données d'entrée proviennent d'un outil Sortie XDF ou d'un outil Entrée XDF, la fonction  RevoScaleR rxDForest est utilisée pour l'estimation du modèle. Grâce à la fonction RevoScaleR, vous pouvez analyser des jeux de données beaucoup plus volumineux (mémoire insuffisante), mais au détriment d'une augmentation de la charge pour créer un fichier XDF, et utiliser un algorithme devant effectuer plus d'opérations sur les données pour créer chaque arbre de l'ensemble (beaucoup plus lent) que la fonction randomForest open source. Par conséquent, il est fortement recommandé de réduire le nombre d'arbres de l'ensemble par rapport aux 500 arbres par défaut.

Paramètres obligatoires

  • Nom du modèle : entrez le nom du modèle, afin d'identifier ce dernier lorsque d'autres outils y font référence. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (.) et trait de soulignement (_). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.

  • Sélectionner la variable cible : sélectionnez les données à prédire. Une variable cible est également appelée « réponse » ou « variable dépendante ».

  • Sélectionner les variables prédictives : sélectionnez les données à utiliser pour influencer la valeur de la variable cible. Une variable prédictive est également appelée « caractéristique » ou « variable indépendante ». Vous pouvez sélectionner n'importe quel nombre de variables prédictives, mais la variable cible ne doit pas être également une variable prédictive. Chaque variable prédictive catégorique peut avoir au maximum 32 classes. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.

  • Nombre d'arbres à utiliser : saisissez le nombre de modèles d'arbre à inclure dans la forêt. La valeur par défaut est 500 en fonction des résultats de Breiman. Réduisez la valeur avec un flux de métadonnées XDF si la durée d'exécution du modèle pose problème.

  • Sélectionner un nombre spécifique de variables à sélectionner dans chaque fractionnement : cochez cette case et saisissez le nombre de variables à prendre en compte à chaque fractionnement.

Sélectionnez Personnalisation du modèle pour modifier les paramètres du modèle.

Personnalisation du modèle

  • Limiter directement la taille de chaque arbre de modèle :

    • Nombre total de nœuds autorisés dans un arbre : sélectionnez cette option pour les modèles qui utilisent le modèle randomForest open source.

    • Profondeur maximale d'un arbre de modèle : sélectionnez cette option pour les modèles qui utilisent la fonction RevoScaleR rxDForest.

  • Nombre minimal d'enregistrements autorisés dans un nœud d'arbre : saisissez une valeur ou utilisez les flèches vers le haut ou vers le bas pour contrôler la taille du plus petit nœud de terminal autorisé dans chaque arbre d'ensemble. Si vous augmentez cette valeur, le nombre total de nœuds dans chaque arbre diminue.

  • Sélectionner les enregistrements pour la création de chaque modèle avec remplacement : cochez cette case pour contrôler si les répliques bootstrap sont extraites de l'échantillon d'estimation complèt avec ou sans remplacement.

  • Pourcentage des enregistrements de données à échantillonner pour créer chaque arbre : saisissez une valeur ou utilisez les flèches vers le haut ou vers le bas pour contrôler si tout ou une partie seulement de l'échantillon d'estimation complèt sera utilisé pour former chaque réplique bootstrap.

Options des graphiques

  • Taille du tracé : sélectionnez « pouces » ou « centimètres » pour indiquer la taille du graphique.

  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).

    • Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.

    • Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

  • Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • L'ancrage O : affiche le nom du modèle et la taille de l'objet dans la fenêtre Résultats.

  • L'ancrage R : affiche un rapport récapitulatif du modèle incluant un récapitulatif et des tracés.

Configurer l'outil pour le traitement en BDD

L'outil Modèle de forêt prend en charge le traitement en BDD Microsoft SQL Server 2016. Visitez Vue d'ensemble des outils en base de données pour plus d'informations sur les outils et la prise en charge en base de données.

Si un outil Modèle de forêt est placé sur le canevas avec un autre outil en BDD, l'outil bascule automatiquement vers la version en BDD. Pour changer la version de l'outil, cliquez avec le bouton droit sur l'outil, pointez le curseur sur « Sélectionner la version de l'outil », puis cliquez sur une autre version de l'outil. Consultez la page Analyses prédictives pour en savoir plus sur la prise en charge en base de données prédictive.

Connexion d'une entrée

Connectez un flux de données en BDD qui inclut un champ cible d'intérêt avec un ou plusieurs champs prédicteurs possibles.

Si l'entrée provient d'un flux de données en BDD SQL Server ou Teradata, la fonction rxDForest de Microsoft Machine Learning Server (dans le package RevoScaleR) est utilisée pour l'estimation du modèle. Il est ainsi possible d'effectuer le traitement sur le serveur de base de données, à condition que la machine locale et le serveur soient configurés avec Microsoft Machine Learning Server, ce qui peut augmenter considérablement les performances.

Paramètres obligatoires

  • Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement. Vous devez fournir un nom ou générer un nom automatiquement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point ( . ) et trait de soulignement ( _ ). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.

  • Sélectionnez la variable cible : sélectionnez le champ du flux de données à prédire.

  • Sélectionner les variables prédictives : sélectionnez les champs du flux de données dont vous pensez qu'ils « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.

  • Nombre d'arbres à utiliser : sélectionnez le nombre de modèles d'arbre à inclure dans la forêt. La valeur par défaut est 500 en fonction des résultats de Breiman. Réduisez la valeur avec un flux de métadonnées XDF si la durée d'exécution du modèle pose problème.

  • Sélectionner un nombre spécifique de variables à sélectionner entre chaque fractionnement : sélectionnez le nombre de variables à prendre en compte à chaque fractionnement.

  • Utiliser des pondérations d'échantillonnage pour l'estimation du modèle : cochez la case et sélectionnez un champ de pondération dans le flux de données pour estimer un modèle utilisant la pondération de l'échantillonnage. Un champ est utilisé comme prédicteur et comme variable de pondération, puis la variable de pondération apparaîtra dans l'appel de modèle dans la sortie, précédée par la chaîne « Right_ ».

Personnalisation du modèle

  • Limiter directement la taille de chaque arbre du modèle

    • Nombre total de nœuds autorisés dans un arbre : sélectionnez cette option pour les modèles qui utilisent le modèle open source R randomForest.

    • Profondeur maximale d'un arbre de modèle : sélectionnez cette option pour les modèles qui utilisent la fonction RevoScaleR rxDForest.

  • Nombre minimal d'enregistrements autorisés dans un nœud d'arbre : sélectionnez une valeur pour contrôler la taille du plus petit nœud de terminal autorisé dans chaque arbre d'ensemble. Si vous augmentez cette valeur, le nombre total de nœuds dans chaque arbre diminue.

  • Sélectionner les enregistrements pour la création de chaque modèle avec remplacement : sélectionnez cette option pour contrôler si les répliques bootstrap sont extraites de l'échantillon d'estimation complète avec ou sans remplacement.

  • Pourcentage des enregistrements de données à échantillonner pour créer chaque arbre : sélectionnez cette option pour contrôler si tout ou une partie seulement de l'échantillon d'estimation complète sera utilisé pour former chaque réplique bootstrap.

Options des graphiques

  • Taille du tracé : sélectionnez « pouces » ou « centimètres » pour indiquer la taille du graphique.

  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).

    • Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.

    • Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

  • Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • L'ancrage O : affiche le nom du modèle et la taille de l'objet dans la fenêtre Résultats.

  • L'ancrage R : affiche un rapport récapitulatif du modèle incluant un récapitulatif et des tracés.