Skip to main content

Naive Bayes Classifier Tool Icon Herramienta Clasificador bayesiano simple

Ejemplo de cada herramienta

La herramienta Clasificador bayesiano simple tiene un ejemplo de uso. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

La herramienta Clasificador bayesiano simple crea un modelo de clasificación probabilística binómico o multinómico de la relación entre un conjunto de variables predictoras y una variable objetivo categórico. La herramienta asume que todas las variables predictoras son independientes entre sí y predice, según una entrada de muestra, una distribución de probabilidad en un conjunto de clases; por lo que calcula la probabilidad que tiene la variable objetivo de pertenecer a cada clase.

Una de las principales ventajas de la herramienta Clasificador bayesiano simple es que funciona bien incluso con un pequeño conjunto de entrenamiento. Esto es bebido a que está parametrizada por la media y la varianza de cada variable independientemente de todas las demás variables. En muchos problemas de clasificación de máxima verosimilitud, la matriz de covarianza es necesaria para estimar las probabilidades predichas, pero pequeños conjuntos de entrenamiento pueden conducir a una matriz de covarianza altamente variable que, a su vez, puede disminuir el rendimiento del estimador de máxima verosimilitud (MLE). Dado que la herramienta Clasificador bayesiano simple solo requiere el cálculo de las varianzas unidimensionales para cada predictor, la matriz de covarianza no es necesaria y, por lo tanto, el MLE no es afectado por un pequeño conjunto de entrenamiento.

La herramienta Clasificador bayesiano simple es útil cuando se trata de clasificar un conjunto de observaciones según una variable de “clase” objetivo, especialmente en los casos en los que solo se utiliza un pequeño conjunto de entrenamiento y una pequeña cantidad de predictores. Mediante un conjunto de entrenamiento inicial, la herramienta desarrolla un modelo para predecir la probabilidad de que una observación determinada pertenezca a cada clase de la variable objetivo.

Un ejemplo sencillo sería predecir si alguien que haga un lease de un auto nuevo comprará ese auto al finalizar el plazo de acuerdo con las características del auto (por ejemplo, camioneta/sedán/deportivo) o el cliente (por ejemplo, sexo, edad, etc.). La herramienta Clasificador bayesiano simple permitiría “calificar” futuros clientes según el modelo producido por el conjunto de entrenamiento. Este proceso de calificación resulta en un conjunto de probabilidades, uno en el que se compra al final del plazo del lease y otro en el que no se compra.

Esta herramienta utiliza la herramienta R. Dirígete a Opciones> Descargar herramientas predictivase inicia sesión en el portal de Descargas y licencias de Alteryxpara instalar R y los paquetes utilizados por la herramienta R. Visita Descargar y usar herramientas predictivas.

Configurar la herramienta

Parámetros obligatorios

  • Nombre del modelo: cada modelo debe tener un nombre para su posterior identificación. Los nombres del modelo deben comenzar con una letra y pueden contener letras, números y los caracteres especiales de punto (“.”) y guion bajo (“_”). No se permite el uso de otros caracteres especiales. Además, R distingue entre mayúsculas y minúsculas.

  • Selecciona la variable objetivo: selecciona el campo del flujo de datos que deseas predecir. Este objetivo debe ser de tipo cadena.

  • Selecciona los campos predictores: selecciona los campos del flujo de datos que crees que “causan” los cambios en el valor de la variable objetivo. Las columnas que contienen identificadores únicos, como claves primarias sustitutas y claves primarias naturales, no deben utilizarse en análisis estadísticos. No tienen ningún valor predictivo y pueden causar excepciones en tiempo de ejecución.

  • Suavizado de Laplace: elige un valor positivo como parámetro de suavizado. El valor predeterminado es 0. La función de Suavizado de Laplace permite “suavizar” los datos tomando en cuenta las combinaciones de clase o característica que pueden estar completamente ausentes del conjunto de entrenamiento, o no están bien representados en la frecuencia y, por lo tanto, se le asignaría una probabilidad que sea cero o, como mínimo, atípicamente baja (dependiendo de las circunstancias). Esto es útil cuando se intenta crear un modelo de clasificación utilizando un pequeño conjunto de entrenamiento que puede que no constituya una muestra suficientemente representativa de la población.

Opciones de gráficos

  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi).

    • La resolución más baja crea un archivo más pequeño y es mejor para ver en un monitor.

    • Una resolución más alta crea un archivo más grande con una mejor calidad para imprimir.

Ver la salida

  • Ancla O: objeto. Consta de una tabla del modelo serializado con el nombre del modelo.

  • Ancla R: informe. Consta de los fragmentos de informe generados por la herramienta Clasificador bayesiano simple, como un resumen básico del modelo, así como gráficos de efectos principales para cada clase de la variable objetivo.

http://en.wikipedia.org/wiki/Naive_Bayes_classifier