L’outil Pondération de l’importance fournit des méthodes de sélection d’un jeu de variables à utiliser dans un modèle prédictif en fonction de la puissance de la relation entre chaque prédicteur possible et la variable cible.
Le jeu sélectionné au final peut être basé sur l’emploi des N prédicteurs ayant la plus forte relation avec la cible ou sur la sélection d’un seuil de pondération de l’importance. Dans ce cas, seules les variables dépassant le seuil sont incluses dans le modèle.
Cette approche n’est pas dénuée d’inconvénients. Par exemple, elle ne tient compte de la puissance de la relation entre le prédicteur possible et la cible que de manière isolée, sans voir les interactions et corrélations éventuelles entre les prédicteurs. En dépit de cette limite, cette méthode de filtrage des variables est couramment utilisée dans la pratique.
Il existe plusieurs mesures de pondération de l'importance, et l'applicabilité de chaque méthode dépend généralement du type de cible et du prédicteur (numérique ou catégoriel). L’inconvénient de cette situation, c’est que les mesures utilisées pour déterminer l’importance relative des prédicteurs possibles sont différentes pour les variables numériques et catégorielles. La méthode Relief fait exception, mais ses performances ne sont pas aussi fiables que celles des autres méthodes spécifiques d'une combinaison particulière d'un type de cible et d'un type de prédicteur.
La plupart des mesures sont fournies par le package FSelector de R. Ainsi, pour utiliser cette macro, l’ordinateur sur lequel Alteryx est installé doit disposer d’un environnement d’exécution Java 7.
Important
Cet outil n'est pas automatiquement installé avec Alteryx Designer ou les outils R. Pour utiliser cet outil, téléchargez-le depuis Galerie de la communauté.
Flux de données Alteryx contenant la variable cible souhaitée et un jeu de variables prédictives potentielles qui servent à l’estimation d’un modèle prédictif.
Cible continue : sélectionnez cette option si la variable cible à prévoir est de type numérique. Lorsque vous sélectionnez cette option, vous devez choisir le champ de variable cible dans les données et décider si vous examinerez les variables continues (numériques) ou catégorielles (variables de chaîne avec étiquettes de catégorie). Ensuite, vous devez choisir le jeu de prédicteurs (du type sélectionné) à examiner et au moins une mesure de comparaison. Pour la cible continue et les prédicteurs continus, les mesures disponibles sont :
La corrélation de Pearson.
La corrélation rang-ordre de Spearman.
Relief, qui fournit l'algorithme RRELIEFF. Vous pouvez sélectionner le nombre de voisins les plus proches (Nombre de voisins) et la taille de l'échantillon (Taille d'échantillon) utilisés pour calculer la mesure RRELIEFF.
Les mesures de pondération de l’importance disponibles pour une cible continue et des prédicteurs catégoriels sont :
La corrélation (Pearson) de la moyenne conditionnelle. Cette mesure calcule la moyenne de la variable cible pour chaque niveau (catégorie) des variables catégorielles, puis elle calcule la corrélation de Pearson entre les valeurs réelles et moyennes.
Relief, qui utilise l'algorithme RRELIEFF. Vous pouvez sélectionner le nombre de voisins les plus proches (Nombre de voisins) et la taille de l'échantillon (Taille d'échantillon) utilisés pour calculer la mesure RRELIEFF.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Cible catégorielle : sélectionnez cette option si la variable cible à prévoir est une variable catégorielle. Lorsque vous sélectionnez cette option, vous devez choisir le champ de variable cible dans les données et décider si vous examinerez les variables continues (numériques) ou catégorielles (variables de chaîne avec étiquettes de catégorie). Ensuite, vous devez choisir le jeu de prédicteurs (du type sélectionné) à examiner et au moins une mesure de comparaison. Pour la cible continue et les prédicteurs continus, les mesures disponibles sont :
Relief, qui utilise l’algorithme RRELIEFF. Vous pouvez sélectionner le nombre de voisins les plus proches (Nombre de voisins) et la taille de l'échantillon (Taille d'échantillon) utilisés pour calculer la mesure RRELIEFF.
Les mesures de pondération de l’importance disponibles pour une cible catégorielle et des prédicteurs catégoriels sont :
V de Cramer (chi au carré)
Relief, qui utilise l’algorithme RRELIEFF. Vous pouvez sélectionner le nombre de voisins les plus proches (Nombre de voisins) et la taille de l'échantillon (Taille d'échantillon) utilisés pour calculer la mesure RRELIEFF.
Ancrage D : table fournissant la valeur de pondération de l'importance sélectionnée pour chaque prédicteur potentiel.
Ancrage R : snippets de rapports indiquant le champ cible (et son type) et le type des champs de prédicteurs potentiels ainsi que la table de la valeur de pondération de l'importance sélectionnée pour chaque prédicteur potentiel.