Skip to main content

Decision Tree Tool Icon Outil Arbre de décision

Exemple d'outil unique

Exécuter une commande a un exemple d'outil unique. Consultez la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

L'outil Arbre de décision crée un ensemble de règles de fractionnement if-then pour optimiser les critères de création de modèles en fonction des méthodes d'apprentissage par arbre de décision. La formation des règles de l’outil Arbre de décision est basée sur le type de champ cible.

  • Si le champ cible est membre d'un ensemble de catégories, une arborescence de classification est générée.

  • Si le champ cible est une variable continue, une arborescence de régression est générée.

Utilisez le outil Arbre de décision lorsque le champ cible est prédit à l'aide d'un ou plusieurs champs variables, comme un problème de classification ou de régression cible continue.

Cet outil utilise l'outil R. Accédez à OptionsTélécharger les outils prédictifs et connectez-vous au portail Alteryx Downloads and Licenses Portal pour installer R et les paquets utilisés par l'outil R. Consultez  Télécharger et utiliser les outils prédictifs.

Connexion d'une entrée

L'outil T de décision nécessite une entrée avec...

  • Un champ cible d'intérêt

  • 2 champs de prédiction ou plus

Les packages utilisés dans l'estimation du modèle varient en fonction du flux de données d'entrée.

  • Un flux de données Alteryx utilise la fonction open source R gbm.

  • Un flux de métadonnées XDF, provenant soit d'un outil d'entrée XDF, ou d'un outil de sortie XDF, utilise la fonction RevoScaleR rxBTrees.

  • Les données d'un flux de données en base de données SQL Server utilisent la fonction rxBTrees.

  • L'installation de Microsoft Machine Learning Server exploite la fonction RevoScaleR rxBTrees pour vos données dans des bases de données SQL Server ou Teradata. Il faut pour cela que l'ordinateur local et le serveur soient configurés avec Microsoft Machine Learning Server, ce qui permet le traitement sur le serveur de base de données et entraîne une amélioration significative des performances.

Fonctionnalités de RevoScaleR

En comparaison avec les fonctions open source R, la fonction basée sur RevoScaleR peut analyser des jeux de données bien plus grands. Toutefois, la fonction basée sur RevoScaleR doit créer un fichier XDF, ce qui augmente le coût de surcharge, utilise un algorithme qui fait plus de passages  à travers les données, augmentant de ce fait le temps d'exécution, et ne peut pas créer des sorties de diagnostic pour certains modèles.

Configurer l'outil pour le traitement standard

Ces options sont nécessaires à la génération d’un modèle dynamisé.

  • Nom du modèle : nom du modèle qui peut être référencé par d'autres outils. Le préfixe ou le nom du modèle doit commencer par une lettre et peut contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). R est sensible à la casse.

  • Sélectionnez la variable cible : le champ de données à prévoir, également appelé réponse ou variable dépendante.

  • Sélectionnez les variables prédictives : les champs de données utilisés pour influencer la valeur de la variable cible, également appelée fonctionnalité ou variable indépendante. Un minimum de deux champs prédicteurs est nécessaire mais il n’existe pas de limite maximum du nombre de champs prédicteurs sélectionnés. La variable cible proprement dite ne doit pas être utilisée dans le calcul de la valeur cible, de sorte que le champ cible ne doit pas être inclus avec les champs prédicteurs. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.

Sélectionnez Personnaliser pour régler des paramètres supplémentaires.

Personnaliser le modèle

Onglet modèle

Les options qui modifient la façon dont le modèle évalue les données et est construit.

Sélectionnez la fonction rpart ou la fonction C5.0. Les options suivantes varient selon l'algorithme choisi.

  • Rpart: algorithme basé sur les travaux de Breiman, Friedman, Olshen et Stone ; considéré comme le standard. Utilisez rpart si vous créez un modèle de régression ou si vous avez besoin d'un tracé d'élagage.

    • Type de modèle et poids d'échantillonnage: contrôles du type de modèle basés sur la variable cible et la manipulation des poids d'échantillonnage.

      • Type de modèle: le type de modèle utilisé pour prédire la variable cible.

        • Auto: le type de modèle est automatiquement sélectionné en fonction du type de variable cible.

        • Prédit une valeur texte discrète d’une catégorie ou d’un groupe.

        • Régression: le modèle prédit des valeurs numériques continues.

      • Utiliser les pondérations d'échantillonnage dans l'estimation du modèle: option permettant de sélectionner un champ qui évalue l'importance donnée à chaque enregistrement lors de la création d'une estimation de modèle.

        Si un champ sert à la fois de prédicteur et de pondération de l’échantillonnage, le champ de la variable de pondération de sortie recevra le préfixe “Right_”.

    • Critères de fractionnement et substituts: contrôle la façon dont le modèle détermine un fractionnement et la façon dont les substituts sont utilisés dans l'évaluation des modèles de données. Les critères de fractionnement à utiliser : sélectionnez la façon dont le modèle évalue quand un arbre doit être fractionné.

      • Les critères de fractionnement lors de l'utilisation d'un modèle de régression sont toujours les moindres carrés.

        • Coefficient de Gini

        • L'impureté Gini est utilisée.

        • Index d'informations

      • Sélectionnez la méthode d’utilisation de substitutions pendant le processus de fractionnement. Les substituts sont des variables liées à la variable primaire qui sont utilisées pour déterminer le résultat fractionné pour un enregistrement avec des informations manquantes.

        • Omettre les observations avec valeur manquante pour la règle de fractionnement primaire: l'enregistrement manquant de la variable candidate n'est pas pris en compte dans la détermination du fractionnement.

        • Enregistrements fractionnés sans la variable candidate: tous les enregistrements sans la variable candidate sont répartis uniformément sur le fractionnement.

        • Envoyer l'observation dans la direction de la majorité si toutes les substituts sont manquants: tous les enregistrements qui manquent de la variable candidate sont poussés du côté de la division qui contient plus d'enregistrements.

      • Sélectionnez les critères appropriés pour choisir la meilleure variable de fractionnement parmi plusieurs variables possibles.

        • Nombre de classifications correctes pour une variable candidate: choisit la variable à diviser en fonction du nombre total d'enregistrements correctement classés.

        • Pourcentage de classifications correctes pour une variable candidate choisit la variable à fractionner en fonction du pourcentage d'enregistrements correctement classifiés.

    • HyperParameters: contrôle de la distribution antérieure du modèle. Ajuster le traitement en fonction de la distribution précédente.

      • Le nombre minimum d'enregistrements nécessaires pour permettre un fractionnement: définit le nombre d'enregistrements qui doivent exister avant qu'un fractionnement ne se produise. Si le nombre d’enregistrements existants est inférieur au nombre minimum, aucun fractionnement supplémentaire ne sera alors autorisé.

      • Le nombre minimum autorisé d'enregistrements dans un noeud terminal: définit le nombre d'enregistrements pouvant se trouver dans un noeud terminal. Plus ce nombre est bas, plus le nombre potentiel de nœuds terminaux finaux à la fin de l’arbre est élevé.

      • Le nombre de plis à utiliser dans la validation croisée pour élaguer l'arbre: définissez le nombre de groupes (N) dans lesquels les données doivent être divisées lors du test du modèle. Le nombre par défaut est 10, mais d’autres valeurs courantes sont 5 et 20. Plus le nombre de plis est élevé, plus la précision de l’arbre est grande, mais l’exécution de ce processus peut être plus longue. Lorsque l’arbre est épuré à l’aide d’un paramètre de complexité, la validation croisée détermine le nombre de plis, ou de ramifications, présents dans l’arbre. Lors de la validation croisée, N - 1 des plis sont utilisés pour créer un modèle, et l’autre pli est utilisé comme échantillon pour déterminer le nombre de ramifications optimal pour le pli de retenue afin d’éviter un surajustement.

      • Sélectionnez le nombre de niveaux de ramifications autorisé entre le nœud racine et le nœud le plus éloigné de la racine afin de restreindre la taille globale de l’arbre.

      • Nombre maximal de bacs à utiliser pour chaque variable numérique: Entrez le nombre de bacs à utiliser pour chaque variable. La valeur par défaut utilise une formule basée sur le nombre minimum d’enregistrements nécessaires pour un fractionnement.

        Flux de métadonnées XDF uniquement

        Cette option ne s’applique que si l’entrée dans l’outil est un flux de métadonnées XDF. La fonction Revo ScaleR (rxDTree) qui met en œuvre l’arbre de décision évolutif gère les variables numériques via un processus de stockage par intervalle égal afin de diminuer la complexité des calculs.

      • Le paramètre de complexité détermine la taille de l’arbre de décision. Plus la valeur est basse, plus le nombre de branches dans l’arbre est élevé ; en revanche, plus la valeur est élevée, moins l’arbre comporte de branches. Si aucun paramètre de complexité n’est sélectionné, il est automatiquement déterminé en fonction de la validation croisée.

  • C5.0: un algorithme basé sur le travail de Quinlan ; utilisez C5.0 si vos données sont triées dans une classe parmi un petit nombre de classes mutuellement exclusives. Les propriétés qui peuvent être pertinentes pour l'affectation de classe sont fournies, bien que certaines données puissent avoir des valeurs inconnues ou non applicables.

    • Options structurelles: contrôle de la structure du modèle. Par défaut, le modèle est structuré comme un arbre de décision.

      • Décomposerl'arbre en modèle basé sur des règles: changer la structure de l'algorithme de sortie d'un arbre de décision en une collection de règles simples et non ordonnées si-alors. Sélectionnez seuil nombre de bandes dans lesquelles regrouper les règles pour sélectionner un nombre de bandes dans lesquelles regrouper les règles où le nombre défini est le seuil de bande.

    • Options détaillées: contrôle des fractionnements et des fonctions du modèle.

      • Le modèle devrait évaluer des groupes de prédicteurs discrets pour les divisions: regrouper les variables prédictives catégorielles ensemble. Sélectionnez cette option pour réduire le surajustement lorsqu'il existe des attributs discrets importants qui ont plus de quatre ou cinq valeurs.

      • Utiliser le triage de prédicteurs (c.-à-d. la sélection de fonctions) : Sélectionnez cette option pour simplifier le modèle en essayant d’exclure les prédicteurs qui ne sont pas utiles.

      • Élaguer l'arbre: sélectionnez cette option pour simplifier l'arbre afin de réduire le surajustement en supprimant les fractionnements de l'arbre.

      • Evaluer les fractionnements avancés dans les données: sélectionnez cette option pour effectuer des évaluations avec des variables secondaires afin de confirmer quelle branche est la prédiction la plus précise.

      • Sélectionnez cette option pour déterminer si les itérations de boosting deviennent inefficaces et, si tel est le cas, arrêter le boosting.

    • Hyperparamètres numériques: contrôles de la distribution antérieure du modèle basés sur une valeur numérique.

      • Sélectionnez le nombre d'itérations de boost: sélectionnez un 1 pour utiliser un seul modèle.

      • Analogue du paramètre de complexité de la fonction rpart.

      • Sélectionnez le nombre d'échantillons qui doivent être dans au moins 2 fractionnements: Un nombre plus grand donne un arbre plus petit et plus simplifié.

      • Pourcentage de données provenant de la formation pour l'évaluation du modèle: sélectionnez la partie des données utilisée pour la formation du modèle. Utilisez la valeur par défaut 0 si vous voulez utiliser toutes les données pour tester le modèle. Sélectionnez une valeur élevée pour conserver ce pourcentage de données de l’apprentissage et évaluer la précision du modèle

      • Sélectionner la graine aléatoire pour l'algorithme: sélectionnez la valeur de la graine. La valeur doit être un entier positif.

Onglet validation croisée

Validation croisée : méthode de validation utilisant de manière efficace les informations disponibles.

Sélectionnez utiliser la validation croisée pour déterminer des estimations de la qualité du modèle pour effectuer une validation croisée afin d'obtenir divers graphiques et métriques de qualité du modèle. Certains graphiques et métriques apparaîtront dans la sortie R statique, tandis que d’autres s’afficheront dans la sortie I interactive.

  • Nombre de plis de validation croisée : nombre de sous-échantillons dans lesquels les données sont divisées pour la validation ou l'entraînement . Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.

  • Nombre d'essais de validation croisée : nombre de fois que la procédure de validation croisée est répétée. Les plis sont sélectionnés différemment lors de chaque tentative et la moyenne des résultats de toutes les tentatives est calculée. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.

  • Valeur d'amorce aléatoire : valeur qui détermine la séquence des extractions pour l'échantillonnage aléatoire. Cela fait que les mêmes enregistrements dans les données sont choisis, bien que la méthode de sélection soit aléatoire et indépendante des données. Utilisez Sélectionner la valeur de la graine aléatoire pour la validation croisée pour sélectionner la valeur de la graine. La valeur doit être un entier positif.

Onglet tracés

Sélectionnez et configurez les graphiques qui apparaissent dans le rapport de sortie.

  • Sélectionnez cette option pour afficher un rapport récapitulatif du modèle à partir de l’ancrage de sortie R. Sélectionné par défaut.

  • Tree Plot: graphique des variables et branches de l'arbre de décision. Utilisez le bouton Afficher le tracé de l'arbre pour inclure un graphique des variables et branches de l'arbre de décision dans la sortie du rapport du modèle.

    • Sélectionnez cette option pour afficher les branches de l’arbre dans une longueur uniforme ou proportionnellement à l’importance relative d’un fragment dans la prédiction de la cible.

    • Résumé feuille: détermine ce qui est affiché sur les nœuds feuille finaux du tracé arborescent. Sélectionnez comptages si le nombre d'enregistrements est affiché. Sélectionnez proportions si le pourcentage du total des enregistrements est affiché.

    • Taille du tracé: sélectionnez si le graphique est affiché en pouces ou en centimètres.

    • Largeur: définissez la largeur du graphique en utilisant l'unité sélectionnée dans taille du tracé.

    • Hauteur: définissez la hauteur du graphique en utilisant l'unité sélectionnée dans taille du tracé.

    • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).

      • Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.

      • Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

  • Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

    Prune Plot : graphique simplifié de l'arbre de décision.

  • Utilisez un tracé de coupe dans le rapport

    • Sélectionnez cette option pour afficher un graphique simplifié de l’arbre de décision dans la sortie du rapport du modèle.

    • Taille du tracé : sélectionnez si le graphique est affiché en pouces ou en centimètres.

    • Largeur : définissez la largeur du graphique en utilisant l'unité sélectionnée dans taille du tracé.

    • Hauteur : définissez la hauteur du graphique en utilisant l'unité sélectionnée dans taille du tracé.

    • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

    • Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

Configurer l'outil pour le traitement en BDD

L’outil Arbre de décision prend en charge le traitement en BDD Microsoft SQL Server 2016 et Teradata. Visitez Vue d'ensemble des outils en base de données pour plus d'informations sur les outils et la prise en charge en base de données.

Si un outil Arbre de décision est placé sur le canevas avec un autre outil en BDD, l’outil bascule automatiquement vers la version en BDD. Pour changer la version de l'outil, cliquez avec le bouton droit sur l'outil, pointez le curseur sur « Sélectionner la version de l'outil », puis cliquez sur une autre version de l'outil. Consultez la page Analyses prédictives pour en savoir plus sur la prise en charge en base de données prédictive.

Onglet Paramètres obligatoires

  • Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement.

    • Un nom de modèle spécifique: Entrez le nom de modèle que vous souhaitez utiliser pour le modèle. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point ( . ) et trait de soulignement ( _ ). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.

    • Générer automatiquement un nom de modèle: Designer génère automatiquement un nom de modèle qui répond aux paramètres requis.

  • Sélectionnez la variable cible : sélectionnez le champ du flux de données à prédire.

  • Sélectionner les variables prédictives : sélectionnez les champs du flux de données dont vous pensez qu'ils « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.

  • Utiliser les poids d'échantillonnage dans l'estimation du modèle (Facultatif): sélectionnez cette option pour choisir un champ du flux de données d'entrée à utiliser pour le poids d'échantillonnage.

  • Cochez la case et sélectionnez un champ de pondération dans le flux de données pour estimer un modèle utilisant la pondération de l’échantillonnage. Un champ est utilisé à la fois comme prédicteur et comme variable de pondération. La variable weight apparaît dans l'appel de modèle dans la sortie avec la chaîne "right_" en tête.

Onglet Personnalisation du modèle

  • Type de modèle: sélectionnez le type de modèle à utiliser.

    • Classification: Un modèle pour prédire une cible catégorique. Si vous utilisez un modèle de classification, sélectionnez également les critères de fractionnement.

      • Coefficient de Gini

      • Index d'information basé sur l'entropie

    • Régression: Un modèle pour prédire une cible numérique continue.

  • Si un ensemble de branches d’un arbre comporte un nombre d’enregistrements inférieur au nombre minimum défini, aucun fractionnement supplémentaire n’est autorisé.

  • Ce paramètre détermine le mode de réalisation des fractionnements (nombre de branches dans l’arbre). La valeur doit être inférieure à 1. Plus la valeur est faible, plus les branches sont nombreuses dans l’arbre final. La valeur « Auto » ou l’omission d’une valeur entraîne la sélection du « meilleur » paramètre de complexité en fonction de la validation croisée.

  • Nombre minimum d'enregistrements autorisé dans un noeud terminal: le plus petit nombre d'enregistrements qui doivent être contenus dans un noeud terminal. Plus vous diminuez cette valeur, plus le nombre potentiel de nœuds terminaux finaux augmente.

  • Ce groupe d’options détermine le mode de traitement des enregistrements dont les variables prédictives comportent des données manquantes sur un fractionnement donné. La première option est d’omettre (supprimer) un enregistrement dont la variable utilisée dans le fractionnement a une valeur manquante. La deuxième option est d’utiliser des fractionnements de substitution, selon lesquels la direction d’envoi d’un enregistrement repose sur des fractionnements alternatifs sur une ou plusieurs autres variables présentant des résultats presque identiques. La troisième option est d’envoyer l’observation dans la direction de la majorité dans le fractionnement.

    • Omettre une observation avec une valeur manquante pour la règle de fractionnement principale

    • Utilisez des caractères de remplacement pour séparer les enregistrements dans lesquels la variable candidate est manquante

    • Si tous les caractères de substitution sont manquants, envoyer l'observation dans la direction majoritaire

    • Nombre total de classifications correctes pour une variable candidate potentielle

    • Pourcentage correct calculé à l'aide des valeurs non manquantes d'une variable candidate

  • Le nombre de plis à utiliser dans la validation croisée pour élaguer l'arbre: lorsque l'arbre est élagué à l'aide d'un paramètre de complexité, la validation croisée est utilisée pour déterminer combien de fractionnements, donc de branches, se trouvent dans l'arbre. Cette opération est effectuée via l’utilisation de la validation croisée, où N - 1 des plis sont utilisés pour créer un modèle, et le Ne pli est utilisé comme échantillon pour déterminer le nombre de branches optimal pour le pli de retenue afin d’éviter un surajustement. Il est possible de modifier le nombre de groupes (N) selon lequel les données doivent être divisées. La valeur par défaut est 10, mais d’autres valeurs courantes sont 5 et 20.

  • Cette option limite la taille globale de l’arbre en indiquant le nombre de niveaux autorisés entre le nœud racine et le nœud le plus éloigné de la racine.

  • La fonction Revo ScaleR (rxDTree) qui met en œuvre l’arbre de décision évolutif gère les variables numériques via un processus de stockage par intervalle égal afin de diminuer la complexité des calculs. L’option « Par défaut » utilise une formule basée sur le nombre minimum d’enregistrements nécessaires pour un fractionnement, mais il est possible de définir cette valeur manuellement. Cette option ne s’applique que si l’entrée dans l’outil est un flux de métadonnées XDF.

Onglet Options graphiques

  • Ce jeu d’options comprend des options associées au tracé d’un diagramme pour un arbre de décision.

    • La première option est la nature du résumé de feuilles. Cette option détermine si les nombres ou proportions sont imprimés dans les nœuds feuilles finaux dans le diagramme d’arborescence.

      • Comptages

      • Proportions

    • La deuxième option détermine si des distances de branche uniformes doivent être utilisées. Cette option détermine si la longueur des branches d’arborescence dessinées reflète l’importance relative d’un fractionnement pour prévoir la cible ou si elle est uniforme dans le diagramme d’arborescence.

  • Taille du tracé : permet de définir les dimensions du tracé de l'arborescence de sortie.

    • Inches: définissez la largeur et la hauteur du tracé.

    • Centimètres: définissez la largeur et la hauteur du tracé.

    • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).

      • Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.

      • Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

    • Taille de police de base (points) : taille de la police en points.

  • Sélectionnez cette option pour afficher un graphique simplifié de l’arbre de décision dans la sortie du rapport du modèle.

    • Taille du tracé: sélectionnez si le graphique est affiché en pouces ou en centimètres.

      • Largeur: définissez la largeur du graphique en utilisant l'unité sélectionnée dans taille du tracé.

      • Hauteur: définissez la hauteur du graphique en utilisant l'unité sélectionnée dans taille du tracé.

    • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).

      • Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.

      • Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

    • Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • L'ancrage O : affiche le nom du modèle et la taille de l'objet dans la fenêtre Résultats.

  • L'ancrage R : affiche un rapport récapitulatif du modèle incluant un récapitulatif et des tracés.

  • Affiche un tableau récapitulatif interactif des éléments d’aide visuels qui vous permettent d’appliquer un zoom, d’effectuer un survol et de cliquer.

Comportement attendu : précision du tracé

Lors de l'utilisation de outil Arbre de décision pour le traitement standard, la sortie interactive affiche une plus grande précision avec des valeurs numériques que la sortie Rapport.