Preprocesamiento de texto
Utiliza la herramienta Preprocesamiento de texto para limpiar datos de texto:
Convertir palabras a sus raíces (lematizar).
Filtrar los dígitos, la puntuación y las palabras vaciás no deseados.
Se requiere Alteryx Intelligence Suite
Esta herramienta forma parte de Alteryx Intelligence Suite. Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita.
Importante
A partir de la versión 21.4, la herramienta Preprocesamiento de texto elimina correctamente los pronombres cuando se selecciona
Usar palabras vacías predeterminadas
. Anteriormente, la herramienta sustituía pronombres por el término
-PRON-
.
Idiomas compatibles
La herramienta Preprocesamiento de texto admite los idiomas inglés, francés, alemán, italiano, portugués y español.
Componentes de la herramienta
La herramienta Preprocesamiento de texto tiene tres anclas.
Ancla de entrada verde: usa el ancla de entrada verde que se encuentra en la parte superior para conectar los datos de texto que quieres procesar.
Ancla de entrada gris: usa el ancla de entrada gris que se encuentra en la parte inferior para aprobar una lista de palabras vacías de una lista. Recomendamos utilizar el formato CSV, pero la lista puede estar en cualquier formato de entrada siempre que las palabras vacías aparezcan en una sola columna con una palabra por fila.
Ancla de salida: pasa los datos procesados a herramientas posteriores en el flujo de trabajo.
Configurar la herramienta
Agrega una herramienta Preprocesamiento de texto al lienzo.
Utiliza el ancla para conectar la herramienta Preprocesamiento de texto a los datos de texto que quieres utilizar en el flujo de trabajo.
Identifica el Idioma de los datos.
Selecciona el Campo de texto que quieres utilizar.
Ejecuta el flujo de trabajo.
Opciones avanzadas
La herramienta Preprocesamiento de texto tiene algunas opciones avanzadas.
Normalización de texto
Para convertir palabras a sus raíces, marca la casilla Convertir en la raíz de la palabra (lematizar).
Esta opción transforma las palabras derivadas en sus palabras raíz. Por ejemplo, las palabras “corriendo”, “corrió” y “corre” se convierten en la palabra “correr” después de lematizarlas. De esta manera, cuando aplicas un algoritmo de aprendizaje automático para analizar las palabras, la máquina puede reconocer que todas esas palabras se deben agrupar juntas.
Filtro
Para eliminar dígitos, marca la casilla Dígitos . esta opción elimina determinados tokens de dígitos (números) de los datos. Querrás seleccionar esta opción porque los números pueden confundir algunos algoritmos de procesamiento de lenguaje natural.
Para eliminar puntuación, marca la casilla Puntuación . esta opción elimina la puntuación de los datos. Querrás seleccionar esta opción porque la puntuación puede confundir algunos algoritmos de PLN. Algunos tokens de puntuación, como el punto en “Sra.”, se mantienen porque son significativos.
Para eliminar palabras vacías, marca la casilla Palabras vacías . Algunas palabras vacías se eliminan de forma predeterminada. La herramienta Preprocesamiento de texto utiliza el paquete spaCy de forma predeterminada. spaCy tiene diferentes listas de palabras vacías para diferentes idiomas. Puedes ver la lista completa de palabras vacías para cada idioma en el repositorio de GitHub de spaCy:
También puedes eliminar palabras vacías que no se eliminan de forma predeterminada. Ingresa las palabras vacías que quieres eliminar en el campo de texto. Separa cada palabra con una coma y un espacio (en ese orden).
Salida
En la ventana de Resultados, la herramienta crea una nueva columna con el nombre de la columna procesada más "_procesado".