Outil Validation croisée
Utilisez l'outil Validation croisée pour comparer les performances d'un ou plusieurs modèles prédictifs générés par Alteryx en utilisant le processus de validation croisée. Cet outil prend en charge tous les modèles de classification et de régression.
Cet outil utilise l'outil R. Accédez à Options Télécharger les outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l'outil R.
Important
Cet outil n'est pas automatiquement installé avec Alteryx Designer ou les outils R. Pour utiliser cet outil, téléchargez-le depuis la Communauté Alteryx.
Parmi les modélisateurs prédictifs, la validation croisée est souvent préférée par rapport aux autres méthodes d'évaluation de modèle, car elle ne nécessite pas l'utilisation d'un jeu de test distinct et génère des estimations plus solides de la qualité des modèles.
Pour tous les modèles de classification, l'outil fournit la précision globale, la précision par classe et un ensemble de matrices de confusion (un pour chaque modèle). En outre, l'outil indique le score F1 et une collection de tracés de diagnostic de performance (courbe de lift, diagramme de gain, courbes de précision vs rappel et courbe ROC) pour les modèles de classification binaire. Pour les modèles de régression, l’outil indique généralement la corrélation entre les valeurs prédites et les valeurs réelles, l’erreur de moyenne quadratique (RMSE), l’erreur absolue moyenne (MAE), l’erreur de pourcentage moyenne (MPE) et l’erreur de pourcentage absolue moyenne (MAPE) des prédictions de chaque modèle. Toutefois, lorsqu'une valeur cible est proche de 0, le MPE et le MAPE ne sont pas définis. Dans ce cas, le MPE est remplacé par la somme des erreurs divisée par la somme des valeurs réelles, et la somme des erreurs absolues divisée par la somme des valeurs réelles (c’est-à-dire l'erreur de pourcentage absolue pondérée) remplace le MAPE. En outre, l'outil fournit toujours un diagramme des valeurs réelles par rapport aux valeurs prédites dans le cas de régression.
Connexion des entrées
L'outil Validation croisée requiert deux entrées :
Ancrage M : soit un modèle prédit unique généré par Alteryx ou l'union d'au moins 2 modèles de ce type. Tous ces modèles doivent être générés avec le même jeu de données.
Ancrage D : jeu de données utilisé pour générer les modèles ci-dessus.
Configuration de l'outil
Nombre de tentatives : saisissez le nombre de fois que la procédure de validation croisée doit être répétée. En choisissant un petit nombre de tentatives, vous accélérez l'exécution de l'outil ; toutefois, en définissant un nombre de tentatives élevé, vous obtenez une estimation plus solide de la qualité de vos modèles.
Nombre de plis : saisissez le nombre de sous-ensembles dans lesquels fractionner les données. Une alternative analogue au nombre de tentatives existe également pour le nombre de plis.
Sélectionnez le type de modèle.
Classification : ces modèles prédisent des catégories telles que oui/non.
Régression : ces modèles prédisent des quantités numériques telles que les ventes totales.
La validation croisée stratifiée doit-elle être utilisée ? : la validation croisée stratifiée est un type de validation croisée spécial qui crée des plis avec la même distribution de probabilité que le jeu de données volumineux. Par exemple, dans un jeu de données où 80 % des valeurs cibles sont « Non » et 20 % sont « Oui », chaque pli comprendra environ 80 % de réponses « Non » et 20 % de réponses « Oui ». La validation croisée stratifiée est souvent recommandée lorsque la variable cible n'est pas équilibrée.
Nom de la classe positive : (facultatif) cette option de configuration n'est pertinente que pour la classification binaire (deux classes). Certaines des mesures indiquées pour la classification binaire, telles que le score F1, exigent une distinction entre une classe positive (comme « Oui ») et une classe négative (comme « Non »). Toutefois, cette option de configuration n'est pas obligatoire. Si vous la laissez vide lors de l'utilisation de l'outil avec des modèles de classification binaire, l'outil choisira l'une des classes comme positive.
Valeur de l'amorce : pour créer des résultats reproductibles, vous pouvez sélectionner l'amorce utilisée par le générateur de valeurs numériques aléatoires qui détermine les enregistrements qui sont triés dans tel ou tel pli. La modification de l'amorce changera les compositions des plis.
Visualisation de la sortie
Ancrage D : cette sortie fournit les valeurs de données réelles ainsi que leurs prédictions.
Ancrage F : cette sortie renvoie diverses mesures d'ajustement de modèle, selon le type de modèle.
Ancrage R : rapport récapitulatif contenant les mesures d'ajustement moyennes de chaque tentative, ainsi que des graphiques présentant une courbe unique pour chaque modèle.