Skip to main content

Importance Weights Tool Icon Herramienta Pesos de importancia

La herramienta Pesos de importancia (Importance Weight tool en inglés) proporciona métodos para seleccionar un conjunto de variables para usar en un modelo predictivo basado en la fuerte relación de cada predictor posible con la variable objetivo de un modelo que se va a crear.

El conjunto final seleccionado puede basarse en tomar los N predictores más fuertemente relacionados al objetivo, o seleccionando un nivel de peso de importancia de corte, y solo se incluyen en un modelo aquellas variables que exceden el punto de corte.

El inconveniente de este enfoque es que solo mira la fuerza de un posible predictor en el objetivo de forma aislada, ignorando los posibles efectos de interacción y correlación entre los predictores. A pesar de esta limitación, este tipo de método de filtrado de variables se utiliza con frecuencia en la práctica.

Hay una serie de diferentes medidas de Pesos de importancia, y la aplicabilidad de un método en particular generalmente depende tanto del tipo de objetivo como del predictor (numérico o categórico). Un inconveniente de esta situación es que las medidas utilizadas para determinar la importancia relativa de los diferentes predictores posibles serán diferentes para las variables numéricas y categóricas. La excepción es el método de compensación, pero su rendimiento no es tan sólido como otros métodos que son específicos para un tipo de objetivo y una combinación de tipo predictor en particular.

La mayoría de las medidas se proporcionan mediante el paquete FSelector R. Este paquete hace uso de algunos métodos escritos en Java, por lo que para usar esta macro, necesitarás tener un entorno de tiempo de ejecución de Java 7 en la máquina donde está instalado Alteryx.

Importante

Esta herramienta no se instala automáticamente con Alteryx Designer o las herramientas R. Para utilizar esta herramienta, descárgala de laGalería de la Comunidad.

Conectar una entrada

Un flujo de datos Alteryx que contiene tanto la variable objetivo deseada como un conjunto de variables predictoras potenciales que se utilizarán para estimar un modelo predictivo.

Configurar la herramienta

  • Objetivo continuo: selecciona esta opción si la variable de destino que deseas predecir es una variable numérica. Al seleccionar esta opción, se te pedirá que selecciones el campo de la variable de destino de los datos, y si deseas examinar qué posibles variables continuas (numéricas) o categóricas (variables de cadena con etiquetas de categoría) deseas considerar. Una vez realizada esta selección, deberás seleccionar el conjunto de predictores (del tipo seleccionado) que deseas examinar y una o más medidas de comparación. Para predictores objetivo y continuos, las medidas disponibles son:

    • Correlación de Pearson

    • Correlación de Spearman (orden de rangos)

    • Relief, que proporciona el algoritmo RRELIEFF. El uso puede seleccionar tanto el número de vecinos cercanos (conteo del vecino) como el tamaño de la muestra (tamaño de la muestra) utilizado para el cálculo de la medida RRELIEFF.

    • Las medidas de peso de importancia disponibles para un objetivo continuo y predictores categóricos son:

      • Correlación (Pearson) media condicional Esta medida se basa en el cálculo del nivel medio de la variable objetivo para cada nivel (categoría) de las variables categóricas, y luego el cálculo de la correlación de Pearson entre los valores reales y los valores medios

      • Relief, que utiliza el algoritmo RRELIEFF. El uso puede seleccionar tanto el número de vecinos cercanos (conteo del vecino) como el tamaño de la muestra (tamaño de la muestra) utilizado para el cálculo de la medida RRELIEFF.

    • Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Objetivo categórico: selecciona esta opción si la variable objetivo que deseas predecir es una variable categórica. Al seleccionar esta opción, se te pedirá que selecciones el campo de la variable de destino de los datos, y si deseas examinar qué posibles variables continuas (numéricas) o categóricas (variables de cadena con etiquetas de categoría) deseas considerar. Una vez realizada esta selección, deberás seleccionar el conjunto de predictores (del tipo seleccionado) que deseas examinar y una o más medidas de comparación. Para predictores objetivo y continuos, las medidas disponibles son:

Ver la salida

  • Ancla D: consiste en una tabla que proporciona el valor de peso de importancia seleccionado para cada predictor potencial.

  • Ancla R: consiste en fragmentos de informe que indican el campo objetivo (y su tipo) y el tipo de los campos predictores potenciales junto con la tabla del valor de peso de importancia seleccionado para cada predictor potencial.