La herramienta Componentes principales puede reducir las dimensiones (la cantidad de campos numéricos) en una base de datos. Lo hace transformando el conjunto de campos original en uno más pequeño que cubra la mayor parte de la varianza (es decir, la información) en los datos. Los campos nuevos se llaman factores, o componentes principales.
Los componentes principales se extraen secuencialmente, siendo el primer componente principal el que representa la mayor variación en los datos. Intuitivamente, el primer componente principal es un vector que apunta en la dirección en la que los datos están más “dispersos”. El segundo componente principal se configura de manera similar, pero con la restricción adicional de que no debe estar correlacionado con el primero. Cada componente principal posterior captura un porcentaje cada vez más bajo de variación en los datos, y no tiene correlación con los componentes principales previamente extraídos. Puede haber tantos componentes principales como campos numéricos en los datos. Sin embargo, normalmente es posible capturar la varianza en los datos utilizando los primeros componentes principales, en lugar del conjunto completo de campos numéricos originales. Un componente principal se compone de una combinación lineal ponderada de los campos numéricos originales. Juntos, pueden ser utilizados para formar un nuevo sistema de coordenadas, en el cual cada dimensión no está correlacionada con las demás.
Los componentes principales se pueden utilizar en lugar de los campos originales en modelos predictivos, evitando los problemas que pueden ocurrir cuando se utilizan variables altamente correlacionadas, pero a costa de dificultar la interpretación del modelo. Además, el método se puede utilizar para determinar qué grupos de campos probablemente estén muy relacionados entre sí, y ayudar a guiar las decisiones sobre en qué campos omitir de un modelo predictivo. Finalmente, la capacidad de “colapsar” un gran número de campos en un pequeño número de componentes principales es, a menudo, un beneficio en la visualización de relaciones en los datos.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión en el portal Descargas y licencias de Alteryx para instalar R y los paquetes utilizados por la herramienta R. Consulta Descargar y usar herramientas predictivas.
Usa la pestaña Configuración a fin de establecer los controles para los componentes principales y gráficos dobles relacionados.
Campos (seleccionar al menos dos): selecciona los campos numéricos que se utilizarán en el análisis de componentes principales.
¿Escalar cada campo para tener varianza en las unidades?: selecciona esta opción para estandarizar los datos y utiliza la matriz de autocorrelación en lugar de la matriz de autocovarianza como base para el análisis.
La cantidad más alta de componentes principales que se deben incluir en gráficos dobles: un gráfico doble es un medio de visualizar una solución de componentes principales, dos componentes a la vez. Esta opción establece el límite superior de los componentes principales a utilizar en el análisis. Por ejemplo, si este parámetro se establece en “3”, los gráficos dobles incluirán el primero y segundo, primero y tercero, y segundo y tercer componentes principales en tres figuras separadas.
Anexar componentes principales al flujo de datos: selecciona para generar los datos originales junto con campos adicionales para los componentes principales anexados. Los campos añadidos están etiquetados como PC1, PC2, etc. Establece La cantidad de componentes principales que se deben anexar.
Utiliza la pestaña Opciones de gráficos a fin de establecer los controles para la salida gráfica.
Tamaño del gráfico: selecciona pulgadas o centímetros para el tamaño del gráfico.
Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.
Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.
Tamaño de fuente base (puntos): selecciona el tamaño de la fuente del gráfico.
Conecta una herramienta Examinar a cada ancla de salida para ver los resultados.
Ancla O: consiste en el flujo de datos de entrada con los componentes principales anexados.
Ancla R: consiste en los fragmentos de informe generados por la herramienta Componente principal, un resumen estadístico, gráficos básicos y gráficos dobles.
* https://en.wikipedia.org/wiki/Principal_component_analysis