Outil Régression de comptage
Exemple d'outil unique
L'outil Régression de comptage comporte un exemple d'outil unique. Consultez la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.
Utilisez l'outil Régression de comptage pour créer un modèle de régression qui relie un champ d'intérêt (variable cible) contenant un entier non négatif (0, 1, 2, 3, etc.) à un ou plusieurs champs qui sont censés avoir une influence sur la variable cible et sont souvent appelés des « variables prédictives ».
Des exemples de cas pratiques courants sont le nombre de visites effectuées par un client dans un restaurant particulier au cours d'un mois donné ou le nombre de numéros de téléphone associés à un compte de téléphone mobile particulier. Dans ces cas pratiques, l'utilisation d'un modèle linéaire produit des estimations biaisées. Les 2 modèles de régression de comptage les plus connus sont le modèle de Poisson* et le modèle de régression binomiale négative**. À partir d'un ensemble de variables prédictives, un modèle de régression des données de comptage permet d'estimer le nombre attendu d'événements (par exemple, les visites à un magasin) pour une unité d'observation (par exemple, un client).
Le modèle de régression de Poisson produit une hypothèse fiable à propos de la relation entre la moyenne et la variance du champ cible (spécifiquement qu'elles sont équivalentes). En tenant compte de cela, le modèle de quasi-Poisson a été développé. Le modèle de quasi-Poisson permet une variance différente de la moyenne, mais en contrepartie, il ne possède pas de mesures de critères d'information définis (par exemple, l'AIC), et donc, il ne peut pas être utilisé comme point de départ pour la sélection de variables pas à pas. Le modèle de régression binomiale négative possède des critères d'information bien définis. Il permet une différence de moyenne et de variance pour la distribution sous-jacente, c'est pourquoi il est généralement recommandé. Il convient de noter qu'un modèle de régression de Poisson estimé à l'aide de données dans lesquelles la moyenne et la variance diffèrent fournit des estimations non biaisées de la moyenne et des coefficients de modèle correspondants, mais que les tests de signification statistique sont biaisés.
Avec cet outil, si l'entrée provient d'un flux de données Alteryx standard, la fonction glm de R open source permet d'estimer le modèle. Si l'entrée provient d'un outil outil Sortie XDF ou un outil Entrée XDF, la fonction rxGlm de Revo ScaleR permet d'estimer le modèle. La fonction basée sur Revo ScaleR est intéressante, car elle permet d'analyser des jeux de données beaucoup plus volumineux (hors mémoire). En revanche, elle nécessite de créer un fichier XDF, elle empêche de générer une partie de la sortie de diagnostic du modèle qui est disponible avec les fonctions R open source et elle ne peut produire qu'un modèle de régression de Poisson.
Cet outil utilise l'outil R. Accédez à OptionsTélécharger les outils prédictifs et connectez-vous au portail Alteryx Downloads and Licenses pour installer R et les paquets utilisés par l'outil R. Consultez Télécharger et utiliser les outils prédictifs.
Connexion d'une entrée
Connectez un flux de données Alteryx ou un flux de métadonnées XDF qui inclut un champ cible d'intérêt avec un ou plusieurs champs prédicteurs possibles.
Configuration de l'outil
Régression de comptage - Onglet Configuration
Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.
Sélectionnez la variable cible : sélectionnez le champ du flux de données à prédire.
Sélectionnez les variables prédictives : sélectionnez les champs du flux de données dont vous pensez qu'ils provoquent des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Type de modèle : sélectionnez un modèle Poisson, Quasi-Poisson ou Binomial négatif. Si l'utilisateur choisit le modèle binomial négatif, il peut spécifier la valeur de thêta (qui est étroitement liée à la variance du modèle). La valeur optimale de thêta peut être estimée à partir des données si l'option par défaut « auto » est utilisée.
Utiliser des pondérations d'échantillonnage dans l'estimation du modèle ? (Facultatif) : cochez la case et sélectionnez un champ de pondération dans le flux de données pour estimer un modèle utilisant la pondération de l'échantillonnage. Cette option est indisponible si le modèle binomial négatif est sélectionné et si la valeur de thêta est déterminée avec l'option auto, mais elle est efficace si une valeur de thêta spécifique est fournie (elle peut être basée sur une première exécution du modèle sans pondération de l'échantillonnage).
Onglet Options graphiques
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Visualisation de la sortie
Ancrage O : table du modèle sérialisé avec son nom de modèle.
Ancrage R : comprend les snippets de rapports générés par l'outil Régression de comptage : un résumé statistique, une analyse de déviance de type II (ANOD) et les tracés des diagnostics de base. La table analyse de déviance de type II et les tracés des diagnostics de base ne sont pas produits lorsque l'entrée du modèle provient d'un outil Sortie XDF ou Entrée XDF.
*en.wikipedia.org/wiki/Poisson_regression
**https://fr.wikipedia.org/wiki/Loi_binomiale_n%C3%A9gative