Skip to main content

Find Nearest Neighbors Tool Icon Outil Trouver les plus proches voisins

L'outil Trouver les plus proches voisins recherche le nombre sélectionné de voisins les plus proches dans le flux « données » correspondant à chaque enregistrement du flux « requête » en fonction de leur distance euclidienne. Cette méthode propose plusieurs algorithmes permettant de rechercher les voisins les plus proches qui diffèrent en ce qui concerne la vitesse et la précision potentielle. La recherche par défaut consiste à utiliser l'algorithme KD-Tree, qui offre généralement un bon compromis entre vitesse et précision. En outre, vous pouvez effectuer les calculs à l'aide des données d'origine ou des données standardisées avec une standardisation de score z (tous les champs ont une valeur moyenne de 0 et un écart-type de 1) ou avec une transformation d'intervalle d'unités (les valeurs de chaque champ sont comprises entre 0 et 1).

Il est recommandé d'utiliser une standardisation de champ avec cet outil, car les calculs de la distance euclidienne sont très sensibles aux écarts d'échelles de champ (par exemple, les données de revenus de ménages et d'âge non transformées ont des niveaux et des plages très différents). En raison de la nature de cette méthode, seuls des champs numériques peuvent être utilisés comme entrées. L'outil utilise le package R FNN.

Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au portail de licences et de téléchargements Alteryx pour installer R et les packages utilisés par l'outil R. Pour en savoir plus, consultez la page Télécharger et utiliser les outils prédictifs.

Connexion des entrées

L'outil accepte 2 flux de données Alteryx :

  • Ancrage D : accepte le flux « données ». L'outil recherche le nombre sélectionné de voisins les plus proches dans le flux « données » correspondant à chaque enregistrement du flux « requête » (entrée Q).

  • Ancrage Q : accepte le flux « requête ».

Configuration de l'outil

  • Champ de clé unique : une clé unique est nécessaire pour que cet outil puisse identifier les relations entre les enregistrements dans les flux requête et données.

  • Champs (au moins deux) : sélectionnez les champs numériques à utiliser pour construire la solution de clustering.

  • Standardiser les champs… : sélectionnez cette option pour choisir de standardiser les champs à l'aide d'une standardisation de score z ou d'intervalle d'unités.

    • Standardisation des scores z : la transformation de score z implique la soustraction de la valeur moyenne pour chaque champ des valeurs du champ, puis la division par l'écart-type du champ. Cela entraîne un nouveau champ comportant une moyenne de zéro et un écart-type de un.

    • Standardisation de l'intervalle d'unités : la transformation d'intervalle d'unités implique la soustraction de la valeur minimum d'un champ des valeurs du champ, puis la division par la différence entre les valeurs maximum et minimum du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les calculs des K voisins les plus proches sont très sensibles à la mise à l'échelle des données, notamment si un champ est à une échelle très différente d'un autre. Par conséquent, envisagez d'utiliser la mise à l'échelle des données.

  • Nombre de voisins proches à trouver : le nombre par défaut (et minimum) est 1 voisin (le plus proche). Le maximum est 100.

  • Algorithme à utiliser pour trouver les voisins les plus proches : les méthodes varient en fonction du temps de calcul et de la précision. L'algorithme par défaut est KD-Tree, qui offre généralement un bon compromis entre temps de calcul et précision. La recherche linéaire garantit de trouver les vrais voisins les plus proches, mais a un coût de calcul très élevé. Choisissez l'une des options suivantes…

    • Cover Tree

    • KD-Tree

    • VR : méthode utilisée par Venables et Ripley, 2002.

    • CR : version de l'algorithme VR basée sur une mesure de distance modifiée.

    • Recherche linéaire : implique le calcul de la distance entre chaque point du flux requête et tous les points du flux données.

Visualisation de la sortie

  • Ancrage N : ce flux est constitué d'une table qui fournit la valeur de clé unique et la distance vers le nombre souhaité de voisins proches à chaque point du flux requête (identifié par la clé unique pour chaque enregistrement du flux requête). Si le nombre souhaité de voisins proches est égal à 2 et que le nom de champ de clé unique est ID, ce flux de données de sortie contient les champs ID, ID_1 (clés uniques du voisin le plus proche), Dist_1 (distance euclidienne vers le voisin le plus proche), ID_2 (clé unique pour le deuxième voisin le plus proche) et Dist_2 (distance euclidienne vers le deuxième voisin le plus proche).

  • Ancrage M : ce flux fournit le champ de clé unique, les valeurs de données standardisées et un indicateur (champ __Type__) signalant si un enregistrement est situé dans le flux données ou requête pour tous les enregistrements des flux données et requête.

*en.wikipedia.org/wiki/Cover_tree

**en.wikipedia.org/wiki/K-d_tree

***Venables, W. N. and Ripley, B. D. (2002), Modern Applied Statistics with S, 4è éd., Springer, Berlin.