Clasificación de texto

Componentes de la herramienta

La herramienta Clasificación de texto tiene cuatro anclas (dos de entrada y dos de salida):

Ancla de entrada T : utiliza el ancla de entrada T para conectar tus datos de entrenamiento. Los datos de entrenamiento deben tener una columna con texto y una columna con la etiqueta del texto.
Ancla de entrada V : utiliza el ancla de entrada V para conectar las etiquetas y el texto de validación.
Ancla de salida M : utiliza el ancla de salida M a fin de transmitir el modelo que creaste a herramientas posteriores. Utiliza tu modelo con la herramienta Predecir .
Ancla de salida E : utiliza el ancla de salida E para recopilar métricas de evaluación de tu modelo.

Configurar la herramienta

Agrega una herramienta Clasificación de texto al lienzo.
Conecta el ancla de entrada T a tus datos de entrenamiento. A continuación, ajusta la configuración de Texto de entrenamiento :
1. Selecciona la Columna con texto que contiene los datos de texto de entrenamiento.
2. Selecciona la Columna con etiquetas que contiene las etiquetas de los datos de texto de entrenamiento.
Conecta el ancla de entrada V a los datos de validación. A continuación, ajusta la configuración de Validación :
1. Selecciona la Columna con texto que contiene los datos de texto de validación.
2. Selecciona la Columna con etiquetas que contiene las etiquetas de los datos de texto de validación.
Configura las Opciones avanzadas para que coincidan con tu caso práctico. Consulta la siguiente sección para obtener más información.
Ejecuta el flujo de trabajo.

Importante

Ten en cuenta que las columnas deben ser un tipo de dato de cadena.

Opciones avanzadas

Elige el algoritmo que deseas usar para tu modelo:

Modo automático
Bayesiano simple multinomial
SVC lineal

Modo automático

Busca un modelo óptimo entre los modelos de algoritmos disponibles. La selección de modo automático aprovecha los algoritmos Bayesiano simple multinomial y SVC lineal. Para cada modelo, busca a través de un pequeño rango de parámetros correspondientes. A continuación, el modo automático genera la combinación óptima de algoritmos e hiperparámetros. Para ajustar el modelo, elige uno de los menús desplegables específicos del algoritmo.

Bayesiano simple multinomial

El algoritmo bayesiano simple multinomial es un modelo de clasificación probabilística. El clasificador bayesiano simple crea un modelo que predice la probabilidad de que un texto pertenezca a una etiqueta. Para crear tu modelo, usa datos de entrenamiento en forma de filas de texto y sus etiquetas asociadas (también conocidas como clases u objetivos). El algoritmo supone que todas las características son independientes entre sí. Las ventajas del clasificador bayesiano simple son que es escalable y generalmente funciona bien con un pequeño conjunto de entrenamiento.

Alpha

Alpha es un parámetro de suavizado aditivo que puedes utilizar para controlar la complejidad del modelo. Un valor de 0 indica que no hay suavizado. Un valor superior a 0 podría mejorar los resultados si una palabra en los datos de prueba no existe en los datos de entrenamiento.

La herramienta busca el mejor modelo basado en un rango de valores alpha que tú defines. Para crear estos valores alpha, ingresa el rango que deseas buscar ( desde - hasta ) y la cantidad de pasos dentro de ese rango.

Ejemplo 1

Desde = 0, Hasta = 1, Cantidad de pasos = 5 → Crea los siguientes valores Alpha para que el modelo haga pruebas: [0, 0,25, 0,5, 0,75, 1].

Ejemplo 2

Desde = 0, Hasta = 1, Cantidad de pasos = 2 → Crea los siguientes valores Alpha para que el modelo haga pruebas: [0, 1].

Validación cruzada

Validación cruzada es una técnica de remuestreo que utiliza diferentes partes (o pliegues) de tus datos para el entrenamiento y la validación de modelos. Elige la cantidad de pliegues que se usarán durante la validación cruzada.

Frecuencia de término - Frecuencia inversa de documento (TF-IDF)

La necesidad de convertir texto sin procesar en datos numéricos es un paso necesario para la clasificación de texto. Este paso de vectorización permite que el modelo interprete los datos. Para la herramienta Clasificación de texto, utilizamos una técnica de vectorización llamada Frecuencia de término - Frecuencia inversa de documento ( TF-IDF ). Esta es la configuración de TF-IDF:

Analizador
Elige crear características a partir de palabras ( palabra ) o caracteres ( caracteres ) según el texto ingresado.
Frecuencia mínima de documento
Ingresa la frecuencia mínima de términos permitidos en los datos de texto. La herramienta no agregará términos por debajo de esta frecuencia al vocabulario del algoritmo.

SVC lineal

SVC lineal pertenece a la clase de modelos máquina de soporte vectorial. Puedes aplicar este algoritmo a datos con dos (binario) o más clases. Una vez ajustado a tus datos, el modelo encuentra el mejor hiperplano que divida los datos en las categorías correctas. SVC lineal es eficaz en un espacio de dimensión superior como el texto; sin embargo, se puede ralentizar cuando se aplica a un gran conjunto de datos de entrenamiento.

Penalización

Elige la norma utilizada en la penalización. Ten en cuenta que la norma L2 (también conocida como la norma euclidiana ) es el estándar utilizado en la clasificación de vectores de soporte. La norma L1 da como resultado vectores de coeficiente escasos.

Pérdida

Elige una función de pérdida. Bisagra (Hinge) es la opción estándar para este algoritmo.

C (rango de logaritmo)

C es un parámetro de regulación. Debe ser mayor que 0. Los valores más grandes de C corresponden a una regularización menor y a un modelo que intenta una adaptación cercana a los datos de entrenamiento. Por el contrario, los valores pequeños de C corresponden a una mayor regularización.

La herramienta busca el mejor modelo basado en un rango de valores C que tú defines. Para crear estos valores C, ingresa el rango de registro que deseas buscar ( desde – hasta ) y la cantidad de pasos dentro de ese rango.