La herramienta Buscar los vecinos más cercanos busca el número seleccionado de vecinos más cercanos en el flujo de entrada D (datos) que corresponde a cada registro en el flujo de entrada Q (consultas) según su distancia euclidiana. Para buscar los vecinos más cercanos, la herramienta proporciona diferente algoritmos que difieren en su velocidad y posible exactitud. Lo predeterminado es realizar la búsqueda según el algoritmo KD-Tree, que generalmente tiene una buena combinación de velocidad y exactitud. Además, tienes la opción de basar los cálculos en los datos originales, o los datos se pueden estandarizar a través de una estandarización z-score (que da como resultado que todos los campos tengan una media de 0 y una desviación estándar de 1) o una transformación de intervalo unitario (en el que los valores de cada campo oscilan entre 0 y 1).
Se recomienda utilizar algún tipo de estandarización de campo con esta herramienta, ya que los cálculos de distancia euclidiana son muy sensibles a las diferencias en las escalas de campo (por ejemplo, los datos no transformados de edad e ingresos del hogar tienen niveles y rangos muy diferentes). Dada la naturaleza de este método, solo se pueden utilizar campos numéricos como entradas. La herramienta utiliza el paquete R FNN.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión en el portal Descargas y licencias de Alteryx para instalar R y los paquetes utilizados por la herramienta R. Para obtener más información, ve a Descargar y usar herramientas predictivas.
La herramienta acepta dos flujos de datos de Alteryx:
Ancla D: acepta el flujo de "datos". La herramienta busca el número seleccionado de vecinos más cercanos en el flujo de datos que corresponde a cada registro en el flujo de consulta (entrada Q).
Ancla Q: acepta el flujo de “consulta”.
Campo de clave única: esta herramienta necesita una clave única para identificar las relaciones entre registros en los flujos de datos y consulta.
Campos (seleccionar al menos dos): selecciona los campos numéricos que se utilizarán en la construcción de la solución de clúster.
Estandarizar los campos…: selecciona esta opción para estandarizar los campos mediante una estandarización z-score o un intervalo unitario.
Estandarización z-score: la transformación de z-score implica restar el valor medio de cada campo de los valores del campo y, luego, dividirlo por la desviación estándar del campo. Esto da como resultado un nuevo campo que tiene una media de cero y una desviación estándar de uno.
Estandarización del intervalo de unidades: la transformación de intervalo unitario implica restar el valor mínimo de un campo de los valores de campo y, luego, dividirlo por la diferencia entre el valor máximo y mínimo del campo. Esto da como resultado un nuevo campo con valores que van de cero a uno. Los cálculos de k vecinos más cercanos son muy sensibles al escalamiento de los datos, en especial si un campo está en una escala muy diferente a la de otro. Como resultado, el escalamiento de datos es algo que debe considerarse.
La cantidad de vecinos cercanos que se debe encontrar: el número predeterminado (y mínimo) es 1 (el más próximo) vecino cercano. El número máximo es 100.
El algoritmo que se debe utilizar para buscar los vecinos más cercanos: los métodos difieren en el tiempo de computación y exactitud. El algoritmo predeterminado es el KD-Tree, que generalmente tiene un buen tiempo de computación y una gran exactitud. La búsqueda lineal garantiza que encontrará los vecinos realmente más cercanos, pero tiene un costo computacional muy alto. Elige una de las opciones:
VR: método utilizado por Venables y Ripley, 2002.
CR: una versión del algoritmo VR según la medida de distancia modificada.
Búsqueda lineal: implica calcular la distancia entre cada punto del flujo de consulta y todos los puntos del flujo de datos.
Ancla N: consiste en una tabla que da el valor de clave única y la distancia al número deseado de vecinos cercanos a cada punto en el flujo de consulta (identificado por la clave única para cada registro en el flujo de consulta). Si el número deseado de vecinos cercanos es dos, y el nombre del campo de clave única es ID, entonces este flujo de datos de salida tiene los campos ID, ID_1 (las claves únicas para el vecino más cercano), Dist_1 (la distancia euclidiana al vecino más cercano), ID_2 (la clave única para el segundo vecino más cercano) y Dist_2 (la distancia euclidiana al segundo vecino más cercano).
Ancla M: proporciona el campo de clave única, los valores de datos estandarizados y un indicador (el campo __Type__) de si un registro está en los flujos de "datos" o "consulta" para todos los registros de ambos flujos.
* en.wikipedia.org/wiki/Cover_tree
** en.wikipedia.org/wiki/K-d_tree
*** Venables, W. N. y Ripley, B. D. (2002), Modern Applied Statistics with S, 4th ed., Springer, Berlin.