Outil Suréchantillonner le champ

Exemple d'outil unique

L'outil Suréchantillonner le champ dispose d'un exemple d'outil unique. Consultez la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

Dans les données servant à élaborer un modèle prédictif de classification binaire, il arrive souvent que la variable cible ait une proportion de réponses négatives (« non ») bien plus élevée que de réponses positives (« oui »). Par exemple, dans le cadre d’une campagne de publipostage non ciblée, il n’est pas rare de constater que 2 % des prospects potentiels répondent de manière favorable à un appel, contrairement à 98 %. Dans ce cas, les modèles prédictifs rencontrent des difficultés pour établir une distinction entre le signal et le bruit, car le coût de classification de tous les prospects potentiels dans la catégorie « non » sera presque toujours correct.

Pour éviter ce problème, il est fréquent de créer un échantillon pour analyse qui présente un pourcentage élevé de réponses positives (une répartition 50-50 des réponses positives et négatives est souvent utilisée). Cet objectif est généralement atteint en incluant toutes les réponses positives et en utilisant un échantillon aléatoire de réponses négatives, la taille de l’échantillon de réponses négatives étant déterminé par le pourcentage de réponses favorables souhaitées dans la nouvelle base de données. Il s’agit de l’approche utilisée dans cet outil.

Connexion d'une entrée

Il s'agit généralement d'un flux de données Alteryx à utiliser pour créer un modèle prédictif de classification binaire (par exemple, oui/non).

Configuration de l'outil

Sélectionner le champ à utiliser comme base du suréchantillonnage : le champ qui contient la valeur à suréchantillonner, généralement le champ de variable cible dans un modèle prédictif de classification binaire.
Valeur du champ à suréchantillonner : niveau à suréchantillonner, généralement, il s'agit de la réponse positive (« oui ») dans un modèle prédictif de classification binaire.
Pourcentage d'enregistrements devant avoir la valeur souhaitée dans le champ d'intérêt : entier compris entre 1 et 100. Cette valeur ne doit pas être inférieure au pourcentage que ce niveau du champ d’intérêt représente dans les données d’origine. Par exemple, si 30 % des données d’origine contiennent la valeur souhaitée pour le champ d’intérêt, la valeur de ce paramètre doit être inférieure à 30 %.

Outil Suréchantillonner le champ

Connexion d'une entrée

Configuration de l'outil

Résultats de la recherche