Skip to main content

Distribution Analysis Tool Icon Outil Analyse de distribution

Exemple d'outil unique

L'outil Analyse de distribution dispose d'un exemple d'outil unique. Accédez à la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

Utilisez l'outil Analyse de distribution pour faire correspondre un ou plusieurs modes de distributions aux données d'entrée et les comparer à l'aide de statistiques basées sur les critères de correspondance. À partir du caractère statistiquement significatif (valeurs p) des résultats de ces tests, vous pouvez déterminer quelle distribution représente le mieux les données.

L’outil Analyse de distribution peut être utile lorsque vous tentez de comprendre la nature générale de vos données et pour décider du meilleur moyen de les analyser. Par exemple, les données d'une distribution de type Normal sont généralement bien adaptées à une régression linéaire, tandis que les données distribuées selon une loi Gamma sont mieux adaptées à l'analyse via l'outil Régression Gamma.

Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au Portail de licences et de téléchargements Alteryx pour installer R et les paquets utilisés par l'outil R. Consultez Télécharger et utiliser les outils prédictifs.

Configuration de l'outil

Onglet Configuration

Utilisez l'onglet Configuration pour définir les contrôles obligatoires de l'outil Analyse de distribution.

  1. Sélectionner un champ à analyser : sélectionnez un champ dans les données entrantes à analyser.

  2. Sélectionner les distributions à comparer : sélectionnez une ou plusieurs distributions à comparer. Les options de distribution sont les suivantes :

    • Normal : distribution de probabilité continue courante qui est souvent utilisée en sciences sociales et naturelles pour représenter des variables aléatoires à valeur réelle (c'est-à-dire des variables aléatoires continues qui peuvent avoir des valeurs positives et négatives).

    • Lognormal : distribution de probabilité continue d'une variable aléatoire dont le logarithme est distribué normalement. Cette distribution est bien adaptée à la description des phénomènes naturels tels que le taux de croissance et les distributions de taille. En outre, elle est souvent utilisée pour décrire la distribution des revenus dans une population suffisamment vaste.

    • Weibull : distribution relativement souple étroitement liée à la distribution exponentielle. On la rencontre fréquemment dans les données décrivant des taux de « défaillance » divers, par exemple les taux aléatoires de défaillances mécaniques, de mortalité, de désabonnement, d'usure mécanique, etc.

    • Gamma : distribution de probabilité continue caractérisée par une concentration importante de cas avec des valeurs inférieures non entières et non négatives tout en acceptant la possibilité raisonnable de valeurs nettement supérieures. La distribution Gamma possède une vaste gamme d'utilisations. On la trouve couramment dans les données décrivant un cumul (ou une moyenne) par cas, par exemple le montant moyen d'une déclaration de sinistre, mesurées par personne.

Les distributions Lognormal, Weibull, et Gamma fonctionnent uniquement pour les données non négatives.

Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.

Onglet Options graphiques

Dans l'onglet Options des graphiques, définissez les contrôles de la sortie graphique.

  • Taille du tracé : sélectionnez Pouces ou Centimètres pour la taille du graphique et définissez les valeurs Largeur et Hauteur.

  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).

    • Une résolution basse produit un fichier de plus petite taille adapté à la visualisation sur un moniteur

    • Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

Visualisation de la sortie

Jeu de snippets de rapports incluant un histogramme, des statistiques de base sur les résultats des tests et sur la qualité de l'ajustement, les quantiles de données par distribution et les paramètres de distribution.

*D’Agostino, R., Stephens, M.A. (1986) Goodness of Fit Techniques.