Outil Composants principaux

L’outil Composants principaux permet de réduire les dimensions (le nombre de champs numériques) dans une base de données. Pour cela, il transforme le jeu de champs d’origine en un ensemble plus petit tenant compte de la plupart des variances (c’est-à-dire des informations) dans les données. Les nouveaux champs sont appelés des « facteurs » ou des « composants principaux ».

Les composants principaux sont extraits de manière séquentielle, le premier composant principal tenant compte de la plupart des variances dans les données. De manière intuitive, le premier composant principal est un vecteur qui pointe dans la direction dans laquelle les données sont le plus « dispersées ». Le deuxième composant principal est configuré de manière similaire, mais avec une contrainte supplémentaire imposant qu’il ne doit pas être corrélé avec le premier. Chaque composant principal suivant capture un pourcentage de plus en plus faible d’écart dans les données, et n’est pas corrélé avec les composants principaux déjà extraits. Il peut y avoir autant de composants principaux que de champs numériques dans les données. Toutefois, il est généralement possible de capturer l’écart dans les données à l’aide des 2-3 premiers composants principaux, plutôt qu’avec l’ensemble complet de champs numériques d’origine. Un composant principal est constitué d’une combinaison linéaire pondérée des champs numériques d’origine. Ensemble, ils peuvent former un nouveau système de coordonnées où aucune dimension n’est corrélée avec les autres.

Les composants principaux peuvent être utilisés en lieu et place des champs d’origine dans des modèles prédictifs, afin d’éviter les problèmes liés à l’utilisation de variables fortement corrélées. En contrepartie, l’interprétation des modèles est plus compliquée. En outre, la méthode peut servir à déterminer les groupes de champs susceptibles de présenter une forte corrélation conjointe, ainsi qu’à prendre des décisions quant aux champs à exclure d’un modèle prédictif. Enfin, la fonction de « réduction » d’un nombre important de champs en un faible nombre de composants principaux constitue souvent un avantage en ce qui concerne la visualisation des relations dans les données.

Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au portail de licences et de téléchargements Alteryx pour installer R et les packages utilisés par l'outil R. Consultez la page Télécharger et utiliser les outils Prédictif.

Configuration de l'outil

Onglet Configuration

Utilisez l'onglet Configuration pour définir les contrôles des composants principaux et des biplots associés.

Champs (au moins deux) : sélectionnez les champs numériques à utiliser dans l'analyse des composants principaux.
Mettre à l'échelle chaque champ pour avoir une variance unitaire ? : sélectionnez cette option pour normaliser les données et utiliser la matrice de corrélation automatique au lieu de la matrice de covariance automatique comme base pour l'analyse.
Nombre de composants principaux maximum à inclure dans les biplots : un biplot est une méthode de visualisation d'une solution de composants principaux (deux composants simultanément). Cette option définit la limite supérieure des composants principaux à utiliser dans l’analyse. Par exemple, si ce paramètre a la valeur « 3 », les biplots incluent les premier et deuxième, premier et troisième et deuxième et troisième composants principaux dans trois figures distinctes.
Ajouter des composants principaux au flux de données : sélectionnez cette option pour obtenir les données d'origine ainsi que des champs supplémentaires pour les composants principaux ajoutés. Les champs ajoutés sont intitulés PC1, PC2, etc. Définissez le nombre de composants principaux à ajouter.

Onglet Options des graphiques

Dans l'onglet Options des graphiques, définissez les contrôles de la sortie graphique.

Taille du tracé : sélectionnez « pouces » ou « centimètres » pour indiquer la taille du graphique.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
- Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
- Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.
Taille de la police de base (points) : sélectionnez la taille de la police dans le graphique.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

Ancrage O : constituée du flux de données d'entrée et des composants principaux ajoutés.
Ancrage R : constituée des snippets de rapports générés par l'outil Composants principaux (résumé statistique, tracés standard et biplots).

*https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales

Outil Composants principaux

Configuration de l'outil

Onglet Configuration

Onglet Options des graphiques

Visualisation de la sortie

Résultats de la recherche