Exemple d'outil unique
L'outil Arbre de décision dispose d'un exemple d'outil unique. Consultez la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.
Utilisez l'outil Arbre de décision pour créer un ensemble de règles de fractionnement if-then pour optimiser les critères de création de modèles en fonction des méthodes d'apprentissage par arbre de décision. La formation des règles repose sur le type de champ cible :
Si le champ cible est membre d'un ensemble de catégories, une arborescence de classification est générée.
Si le champ cible est une variable continue, une arborescence de régression est générée.
Utilisez l'outil Arbre de décision lorsque le champ cible est prédit à l'aide d'un ou de plusieurs champs de variables, comme un problème de classification ou de régression cible continue.
Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l'outil R. Consultez la page Télécharger et utiliser les outils prédictifs.
L'outil Arbre de décision nécessite une entrée avec...
Un champ cible d'intérêt
Deux champs de prédiction ou plus
Les packages utilisés dans l'estimation du modèle varient en fonction du flux de données d'entrée.
Un flux de données Alteryx utilise la fonction open source R rpart.
Un flux de métadonnées XDF, provenant soit d'un outil Entrée XDF, soit d'un outil Sortie XDF, utilise la fonction RevoScaleR rxDTree.
Les données d'un flux de données en base de données SQL Server utilisent la fonction rxBTrees.
L'installation de Microsoft Machine Learning Server exploite la fonction RevoScaleR rxBTrees pour vos données dans des bases de données SQL Server ou Teradata. Il faut pour cela que l'ordinateur local et le serveur soient configurés avec Microsoft Machine Learning Server, ce qui permet le traitement sur le serveur de base de données et entraîne une amélioration significative des performances.
Fonctionnalités RevoScaleR
En comparaison avec les fonctions open source R, la fonction basée sur RevoScaleR peut analyser des jeux de données bien plus grands. Toutefois, la fonction basée sur RevoScaleR doit créer un fichier XDF, ce qui augmente le coût de surcharge, utilise un algorithme qui fait plus de passages à travers les données, augmentant de ce fait le temps d'exécution, et ne peut pas créer des sorties de diagnostic pour certains modèles.
Ces options sont nécessaires à la génération d'une décision.
Nom du modèle type : nom du modèle qui peut être référencé par d'autres outils. Le préfixe ou le nom du modèle doit commencer par une lettre et peut contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Le code R est sensible à la casse.
Sélectionnez la variable cible : le champ de données à prévoir, également appelé réponse ou variable dépendante.
Sélectionnez les variables prédictives : les champs de données utilisés pour influencer la valeur de la variable cible, également appelée fonctionnalité ou variable indépendante. Au moins un champs prédicteur est nécessaire mais il n'existe pas de limite maximum du nombre de champs prédicteurs sélectionnés. La variable cible proprement dite ne doit pas être utilisée dans le calcul de la valeur cible, de sorte que le champ cible ne doit pas être inclus avec les champs prédicteurs. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Sélectionnez Personnaliser pour régler d'autres paramètres.
Options qui modifient la façon dont le modèle évalue les données et se voit construit.
Choisir un algorithme : Sélectionnez la fonction rpart ou la fonction C5.0. Les options suivantes diffèrent selon l'algorithme choisi.
rpart : algorithme calculé en fonction des travaux de Breiman, Friedman, Olshen et Stone ; considéré comme la norme. Utilisez rpart si vous créez un modèle de régression ou si vous avez besoin d'un diagramme d'ajustement.
Type de modèle et poids d'échantillonnage : contrôles du type de modèle basés sur la variable cible et la gestion des pondérations d'échantillonnage.
Type de modèle : type de modèle utilisé pour prédire la variable cible.
Auto : le type de modèle est automatiquement sélectionné en fonction du type de variable cible.
Classification : le modèle prédit une valeur texte discrète d'une catégorie ou d'un groupe.
Régression : le modèle prédit des valeurs numériques continues.
Utiliser les pondérations d'échantillonnage dans l'estimation du modèle : option permettant de sélectionner un champ qui évalue l'importance donnée à chaque enregistrement et pondère l'enregistrement en conséquence lors de la création d'une estimation de modèle.
Si un champ est utilisé à la fois comme prédicteur et comme pondération d'échantillonnage, le champ variable de pondération de sortie est précédé de « Right_ ».
Critères de fractionnement et substituts : contrôles pour la façon dont le modèle détermine un fractionnement et dont les substituts sont utilisés dans l'évaluation des modèles de données. Critères de fractionnement à utiliser : sélectionnez la façon dont le modèle évalue le moment où une arborescence doit être fractionnée.
Les critères de fractionnement lors de l'utilisation d'un modèle de régression sont toujours les Moindres carrés.
Coefficient de Gini
L'impureté Gini est utilisée.
Index d'informations
Utiliser des substitutions pour : sélectionnez la méthode d'utilisation de substitutions pendant le processus de fractionnement. Les substitutions sont des variables liées à la variable primaire qui sont utilisées pour déterminer le résultat du fractionnement pour un enregistrement avec des informations manquantes.
Ignorer les observations comprenant une valeur manquante pour la règle de fractionnement primaire : l'enregistrement manquant de la variable candidate n'est pas pris en compte dans la détermination du fractionnement.
Fractionner les enregistrements dans lesquels manque la variable candidate : tous les enregistrements manquant de variable candidate sont répartis uniformément sur le fractionnement.
Envoyer l'observation dans la direction de la majorité si toutes les substitutions sont manquantes : tous les enregistrements manquant de variable candidate sont poussés du côté du fractionnement qui contient plus d'enregistrements.
Sélectionner le meilleur fractionnement de substitution à l'aide de : sélectionnez les critères appropriés pour choisir la meilleure variable de fractionnement parmi plusieurs variables possibles.
Nombre de classifications correctes pour une variable candidate : choisit la variable à fractionner en fonction du nombre total d'enregistrements correctement classifiés.
Pourcentage de classifications correctes pour une variable candidate : choisit la variable sur laquelle diviser en fonction du pourcentage d'enregistrements correctement classifiés.
Hyperparamètres : contrôles pour la distribution antérieure du modèle. Ajustez le traitement en fonction de la distribution précédente.
Nombre minimum d'enregistrements nécessaires pour un fractionnement : définissez le nombre d'enregistrements qui doivent exister avant qu'un fractionnement ne se produise. Si le nombre d’enregistrements existants est inférieur au nombre minimum, aucun fractionnement supplémentaire ne sera alors autorisé.
Nombre minimum autorisé d'enregistrements dans un nœud terminal : définit le nombre d'enregistrements pouvant se trouver dans un nœud terminal. Plus ce nombre est bas, plus le nombre potentiel de nœuds terminaux finaux à la fin de l’arbre est élevé.
Nombre de plis à utiliser dans la validation croisée pour épurer l'arborescence : définissez le nombre de groupes (N) dans lesquels les données doivent être divisées lors du test du modèle. Le nombre par défaut est 10, mais d’autres valeurs courantes sont 5 et 20. Plus le nombre de plis est élevé, plus la précision de l'arborescence est grande, mais l'exécution de ce processus peut être plus longue. Lorsque l’arbre est épuré à l’aide d’un paramètre de complexité, la validation croisée détermine le nombre de plis, ou de ramifications, présents dans l’arbre. Lors de la validation croisée, N - 1 des plis sont utilisés pour créer un modèle, et l’autre pli est utilisé comme échantillon pour déterminer le nombre de ramifications optimal pour le pli de retenue afin d’éviter un surajustement.
Profondeur maximum autorisée d'un nœud dans l'arborescence final : sélectionnez le nombre de niveaux de ramifications autorisé entre le nœud racine et le nœud le plus éloigné de la racine afin de restreindre la taille globale de l'arborescence.
Nombre maximum d'emplacements à utiliser pour chaque variable numérique : entrez le nombre d'emplacements à utiliser pour chaque variable. Par défaut, la valeur est calculée en fonction du nombre minimum d'enregistrements nécessaires pour un fractionnement.
Flux de métadonnées XDF uniquement
Cette option ne s’applique que si l’entrée dans l’outil est un flux de métadonnées XDF. La fonction Revo ScaleR (rxDTree) qui met en œuvre l’arbre de décision évolutif gère les variables numériques via un processus de stockage par intervalle égal afin de diminuer la complexité des calculs.
Définir le paramètre de complexité : valeur qui contrôle la taille de l'arbre de décision. Plus la valeur est basse, plus le nombre de branches dans l'arborescence est élevé ; en revanche, plus la valeur est élevée, moins l'arborescence comporte de branches. Si aucun paramètre de complexité n'est sélectionné, il est déterminé en fonction de la validation croisée.
C5.0 : algorithme calculé en fonction du travail de Quinlan ; utilisez C5.0 si vos données sont triées dans une classe parmi un petit nombre de classes mutuellement exclusives. Les propriétés qui peuvent être pertinentes pour l'affectation de classe sont fournies, bien que certaines données puissent avoir des valeurs inconnues ou non applicables.
Options structurelles : contrôles de la structure du modèle. Par défaut, le modèle est structuré comme un arbre de décision.
Décomposerl'arborescence en un modèle basé sur des règles : changez la structure de l'algorithme de sortie d'un arbre de décision en une collection de règles if-then simples et non ordonnées. Sélectionnez Nombre minimum de bandes dans lesquelles regrouper les règles pour Sélectionner un nombre de bandes dans lesquelles regrouper les règles lorsque le nombre défini est le seuil de bande.
Options détaillées : contrôles pour les divisions et les fonctionnalités du modèle.
Le modèle doit évaluer des groupes de prédicteurs discrets pour les fractionnements : regrouper les variables prédictives catégorielles ensemble. Sélectionnez cette option pour réduire le surajustement lorsqu'il existe des attributs discrets importants qui ont plus de quatre ou cinq valeurs.
Utiliser le triage de prédicteurs (c.-à-d. la sélection de fonctionnalités) : sélectionnez cette option pour simplifier le modèle en essayant d'exclure les prédicteurs qui ne sont pas utiles.
Épurer l'arborescence : sélectionnez cette option pour simplifier l'arborescence afin de réduire le surajustement en supprimant les fractionnements d'arborescence.
Évaluer les fractionnements avancés de données : sélectionnez cette option pour effectuer des évaluations avec des variables secondaires afin de confirmer quelle branche est la prédiction la plus précise.
Utiliser la méthode d'arrêt pour la stimulation : sélectionnez cette option pour déterminer si les itérations de stimulation deviennent inefficaces et, si tel est le cas, arrêter la stimulation.
Hyperparamètres numériques : contrôles pour la distribution antérieure du modèle reposant sur une valeur numérique.
Sélectionner le nombre d'itérations de stimulation : sélectionnez 1 pour utiliser un seul modèle.
Sélectionner le facteur de confiance : analogue du paramètre de complexité de la fonction rpart.
Sélectionner le nombre d'échantillons qui doivent être présents dans 2 fractionnements au moins : un nombre plus grand donne une arborescence plus petite et plus simplifiée.
Pourcentage de données conservées de la formation pour l'évaluation du modèle : sélectionnez la partie des données utilisée pour la formation du modèle. Utilisez la valeur par défaut 0 si vous voulez utiliser toutes les données pour tester le modèle. Sélectionnez une valeur élevée pour conserver ce pourcentage de données de l’apprentissage et évaluer la précision du modèle
Sélectionner une amorce aléatoire pour l'algorithme : sélectionnez la valeur de l'amorce. La valeur doit être un entier positif.
Contrôles permettant de personnaliser une méthode de validation utilisant de manière efficace les informations disponibles.
Sélectionnez Utiliser la validation croisée pour déterminer les estimations de la qualité du modèle afin d'effectuer une validation croisée pour obtenir divers indicateurs et graphiques de qualité du modèle. Certains graphiques et métriques apparaissent dans la sortie R, tandis que d'autres s'affichent dans la sortie I.
Nombre de plis de validation croisée : nombre de sous-échantillons dans lesquels les données sont divisées pour la validation ou l'entraînement. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
Nombre de tentatives de validation croisée : nombre de répétitions de la procédure de validation croisée. Les plis sont sélectionnés différemment lors de chaque tentative et la moyenne des résultats de toutes les tentatives est calculée. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
Définir l'amorce pour la validation croisée externe : valeur qui détermine la séquence des extractions pour l'échantillonnage aléatoire. Cela fait que les mêmes enregistrements dans les données sont choisis, bien que la méthode de sélection soit aléatoire et indépendante des données. Utilisez Sélectionner la valeur de l'amorce aléatoire pour la validation croisée pour sélectionner la valeur de l'amorce. La valeur doit être un entier positif.
Sélectionnez et configurez les graphiques qui apparaissent dans le rapport de sortie.
Afficher un rapport statique : sélectionnez cette option pour afficher un rapport récapitulatif du modèle à partir de l'ancrage de sortie R. Sélectionné par défaut.
Diagramme d'arborescence : graphique des variables et des branches de l'arbre de décision. Utilisez le bouton bascule Afficher le diagramme d'arborescence pour inclure un graphique des variables et des branches de l'arbre de décision dans la sortie du rapport du modèle.
Distances de branche uniformes : sélectionnez cette option pour afficher les branches de l'arborescence dans une longueur uniforme ou proportionnellement à l'importance relative d'un fragment dans la prédiction de la cible.
Résumé de feuilles : détermine ce qui est affiché sur les nœuds de feuilles finaux dans le diagramme de l'arborescence. Sélectionnez Nombres si le nombre d'enregistrements est affiché. Sélectionnez Proportions si le pourcentage du total des enregistrements est affiché.
Taille du diagramme : sélectionnez cette option si le graphique est affiché en Pouces ou en Centimètres.
Largeur : définissez la largeur du graphique en utilisant l'unité sélectionnée dans Taille du diagramme.
Hauteur : définissez la hauteur du graphique en utilisant l'unité sélectionnée dans Taille du diagramme.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.
Diagramme d'ajustement : graphique simplifié de l'arbre de décision.
Utilisez un diagramme d'ajustement dans le rapport
Afficher le diagramme d'ajustement : sélectionnez cette option pour afficher un graphique simplifié de l'arbre de décision dans la sortie du rapport du modèle.
Taille du diagramme : sélectionnez cette option si le graphique est affiché en Pouces ou en Centimètres.
Largeur : définissez la largeur du graphique en utilisant l'unité sélectionnée dans Taille du diagramme.
Hauteur : définissez la hauteur du graphique en utilisant l'unité sélectionnée dans taille du diagramme.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base (points) : définissez la taille de la police dans le graphique.
L’outil Arbre de décision prend en charge le traitement en BDD Microsoft SQL Server 2016 et Teradata. Visitez Vue d'ensemble des outils en base de données pour plus d'informations sur les outils et la prise en charge en base de données.
Si un outil Arbre de décision est placé sur l'espace de travail avec un autre outil en BDD, l'outil bascule automatiquement vers la version en BDD. Pour changer la version de l'outil, cliquez avec le bouton droit sur l'outil, pointez le curseur sur « Sélectionner la version de l'outil », puis cliquez sur une autre version de l'outil. Consultez la page Analyses prédictives pour en savoir plus sur la prise en charge en base de données prédictive.
Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement.
Nom du modèle spécifique : saisissez le nom du modèle que vous souhaitez utiliser pour le modèle. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.
Générer automatiquement un nom de modèle : Designer génère automatiquement un nom de modèle répondant aux paramètres requis.
Sélectionnez la variable cible : sélectionnez le champ du flux de données à prédire.
Sélectionner les variables prédictives : sélectionnez les champs du flux de données que vous pensez « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Utiliser les pondérations d'échantillonnage dans l'estimation du modèle (facultatif) : sélectionnez cette option pour choisir un champ du flux d'entrée de données à utiliser pour la pondération d'échantillonnage.
Sélectionnez le champ de pondération d'échantillonnage : sélectionnez un champ de pondération dans le flux de données pour estimer un modèle utilisant la pondération de l'échantillonnage. Un champ est utilisé à la fois comme prédicteur et comme variable de pondération. La variable de pondération apparaît dans l'appel de modèle dans la sortie avec la chaîne « Right_ » préfixée.
Type de modèle : sélectionnez le type de modèle qui sera utilisé.
Classification : modèle permettant de prédire une cible catégorielle. Si vous utilisez un modèle de classification, sélectionnez également les critères de fractionnement.
Coefficient de Gini
Index d'informations par entropie
Régression : modèle permettant de prédire une cible numérique continue.
Nombre minimum d'enregistrements nécessaires pour un fractionnement : si un ensemble de branches d'une arborescence comporte un nombre d'enregistrements inférieur au nombre minimum défini, aucun fractionnement supplémentaire n'est autorisé.
Définir le paramètre de complexité : ce paramètre contrôle le mode de réalisation des fractionnements (nombre de branches dans l'arborescence). La valeur doit être inférieure à 1. Plus la valeur est faible, plus les branches sont nombreuses dans l’arbre final. La valeur « Auto » ou l’omission d’une valeur entraîne la sélection du « meilleur » paramètre de complexité en fonction de la validation croisée.
Nombre minimum autorisé d'enregistrements dans un nœud terminal : définit le plus petit nombre d'enregistrements devant se trouver dans un nœud terminal. Plus vous diminuez cette valeur, plus le nombre potentiel de nœuds terminaux finaux augmente.
Utilisation de substitution : ce groupe d'options contrôle le mode de traitement des enregistrements dont les variables prédictives comportent des données manquantes sur un fractionnement donné. La première option est d’omettre (supprimer) un enregistrement dont la variable utilisée dans le fractionnement a une valeur manquante. La deuxième option est d’utiliser des fractionnements de substitution, selon lesquels la direction d’envoi d’un enregistrement repose sur des fractionnements alternatifs sur une ou plusieurs autres variables présentant des résultats presque identiques. La troisième option est d’envoyer l’observation dans la direction de la majorité dans le fractionnement.
Omettre une observation avec une valeur manquante pour la règle de fractionnement principale
Utiliser des caractères de remplacement pour séparer les enregistrements dans lesquels la variable candidate est manquante
Si tous les caractères de substitution sont manquants, envoyer l'observation dans la direction majoritaire
Nombre total de classifications correctes pour une variable candidate potentielle
Pourcentage correct calculé à l'aide des valeurs non manquantes d'une variable candidate
Nombre de plis à utiliser dans la validation croisée pour épurer l'arborescence : lorsque l'arborescence est épurée par l'utilisation d'un paramètre de complexité, la validation croisée est utilisée pour déterminer le nombre de plis (et dès lors de branches) dans l'arborescence. Cette opération est effectuée via l’utilisation de la validation croisée, où N - 1 des plis sont utilisés pour créer un modèle, et le N-ième pli est utilisé comme échantillon pour déterminer le nombre optimal de branches pour le pli de retenue afin d’éviter un surajustement. Il est possible de modifier le nombre de groupes (N) selon lequel les données doivent être divisées. La valeur par défaut est 10, mais d’autres valeurs courantes sont 5 et 20.
Profondeur maximum autorisée d'un nœud dans l'arborescence finale : cette option limite la taille globale de l'arborescence en indiquant le nombre de niveaux autorisés entre le nœud racine et le nœud le plus éloigné de la racine.
Nombre maximum d'emplacements à utiliser pour chaque variable numérique : la fonction Revo ScaleR (rxDTree) qui met en œuvre l'arbre de décision évolutif gère les variables numériques via un processus de stockage par intervalle égal afin de diminuer la complexité des calculs. L’option « Par défaut » utilise une formule basée sur le nombre minimum d’enregistrements nécessaires pour un fractionnement, mais il est possible de définir cette valeur manuellement. Cette option ne s’applique que si l’entrée dans l’outil est un flux de métadonnées XDF.
Diagramme d'arborescence : ce jeu d'options contrôle des options associées au diagramme pour un arbre de décision.
Résumé de feuilles : la première option correspond à la nature du résumé de feuilles. Cette option détermine si les nombres ou proportions sont imprimés dans les nœuds feuilles finaux dans le diagramme d’arborescence.
Comptages
Proportions
Distances de branche uniformes : la deuxième option détermine si des distances de branche uniformes doivent être utilisées. Cette option détermine si la longueur des branches d’arborescence dessinées reflète l’importance relative d’un fractionnement pour prévoir la cible ou si elle est uniforme dans le diagramme d’arborescence.
Taille du diagramme : définissez les dimensions du diagramme de l'arborescence de sortie.
Pouces : définissez la largeur et la hauteur du diagramme.
Centimètres : définissez la largeur et la hauteur du diagramme.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de police de base (points) : taille de la police en points.
Diagramme d'ajustement : sélectionnez cette option pour afficher un graphique simplifié de l'arbre de décision dans la sortie du rapport du modèle.
Taille du diagramme : sélectionnez cette option si le graphique est affiché en Pouces ou en Centimètres.
Largeur : définissez la largeur du graphique en utilisant l'unité sélectionnée dans Taille du diagramme.
Hauteur : définissez la hauteur du graphique en utilisant l'unité sélectionnée dans Taille du diagramme.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base (points) : définissez la taille de la police dans le graphique.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
O (Sortie) : affiche le nom du modèle et la taille de l'objet dans la fenêtre Résultats.
R (Rapport) : affiche un rapport récapitulatif du modèle incluant un récapitulatif et des diagrammes.
I (Interactif) : affiche un tableau de bord interactif des éléments d'aide visuels qui vous permettent d'appliquer un zoom, d'effectuer un survol et de cliquer.
Comportement attendu : précision du diagramme
Lorsque vous utilisez l'outil Arbre de décision pour un traitement standard, la sortie interactive affiche une plus grande précision avec des valeurs numériques que la sortie rapport.