Outil Régression Gamma
Exemple d'outil unique
L'outil Régression de comptage comporte un exemple d'outil unique. Consultez la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.
L’outil Régression Gamma relie une variable d’intérêt strictement positive et distribuée selon une loi Gamma (variable cible) à une ou plusieurs variables (prédictives) qui sont censées avoir une influence sur la variable cible.
Dans plusieurs applications, les valeurs de la variable cible sont toujours strictement positives (elles ne sont jamais égales à zéro ni négatives), mais elles ont tendance à se regrouper dans la plage inférieure des valeurs observées. Toutefois, dans une petite minorité de cas, elles correspondent à des valeurs élevées. Les variables cibles de cette nature représentent un processus de génération de données qui n’est pas cohérent avec les hypothèses de normalité sous-tendant le modèle de régression linéaire traditionnel. Toutefois, les valeurs sont toujours positives et ne sont pas toujours des entiers. Par conséquent, elles ne respectent pas un processus de distribution de Poisson ou de distribution binomiale négative. Elles sont cohérentes avec un processus basé sur une distribution Gamma, et peuvent être estimées à l’aide de méthodes similaires à la régression linéaire, via le cadre du modèle linéaire généralisé.*
Avec cet outil, si l'entrée provient d'un flux de données Alteryx standard, la fonction glm de R open source permet d'estimer le modèle. Si l'entrée provient d'un outil outil Sortie XDF ou un outil Entrée XDF, la fonction rxGlm de Revo ScaleR permet d'estimer le modèle. L’avantage de la fonction Revo ScaleR est qu’elle permet d’analyser des jeux de données beaucoup plus volumineux (mémoire insuffisante), au détriment d’une augmentation de la charge pour créer un fichier XDF et avec l’impossibilité de créer une partie de la sortie de diagnostic de modèle avec les fonctions R open source.
Cet outil utilise l'outil R. Accédez à OptionsTélécharger les outils prédictifs et connectez-vous au portail Alteryx Downloads and Licenses Portal pour installer R et les paquets utilisés par l'outil R. Consultez Télécharger et utiliser les outils prédictifs.
Connexion d'une entrée
Flux de données Alteryx ou flux de métadonnées XDF qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.
Configuration de l'outil
Utilisez l'onglet « Configuration », pour définir les contrôles pour le diagramme des séries temporelles.
Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point ( . ) et trait de soulignement ( _ ). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.
Sélectionnez la variable cible : sélectionnez le champ du flux de données à prédire.
Sélectionner les variables prédictives : sélectionnez les champs du flux de données dont vous pensez qu'ils « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Liste déroulante contenant les options de journal, d’inversion et d’identité. Cette option détermine la fonction de liaison à utiliser avec la famille Gamma pour estimer le modèle linéaire généralisé.
Utiliser des pondérations d'échantillonnage pour l'estimation du modèle : cochez la case et sélectionnez un champ de pondération dans le flux de données pour estimer un modèle utilisant la pondération de l'échantillonnage.
Dans l'onglet « Options des graphiques », définissez les contrôles de la sortie graphique (facultatif).
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Visualisation de la sortie
Ancrage O : table du modèle sérialisé avec son nom de modèle.
Ancrage R : comprend les snippets de rapports générés par l'outil Régression de comptage : un résumé statistique, une analyse de déviance de type II (ANOD) et les tracés des diagnostics de base. La table analyse de déviance de type II et les tracés des diagnostics de base ne sont pas produits lorsque l'entrée du modèle provient d'un outil Sortie XDF ou Entrée XDF.