Skip to main content

PDF to Text tool icon PDF a texto

Utiliza la herramienta PDF a texto para extraer texto de tus archivos PDF. Los archivos PDF pueden contener una combinación de caracteres e imágenes de texto. Las imágenes de texto requieren reconocimiento óptico de caracteres (OCR) para extraer los caracteres de texto. La herramienta PDF a texto puede extraer caracteres de texto directamente desde archivos PDF. La herramienta también puede aplicar el OCR para extraer texto de imágenes que contienen texto. Para documentos escaneados que sean imágenes (por ejemplo, archivos JPG, PNG y BMP), utiliza la herramienta Imagen a texto .

Se requiere Alteryx Intelligence Suite

Esta herramienta forma parte de Alteryx Intelligence Suite . Alteryx Intelligence Suite requiere una licencia independiente y un instalador de complemento para Designer. Después de instalar Alteryx Designer, instala Alteryx Intelligence Suite e inicia la prueba gratuita .

Idiomas compatibles

Si seleccionas Leer solo contenido de texto , la herramienta PDF a texto no tiene ninguna restricción de idioma.

Si seleccionas Leer contenido de texto e imagen o Puntuación de riesgo para texto codificado como gráfico , la herramienta admite los idiomas árabe, inglés, francés, alemán, italiano, japonés, portugués, chino simplificado y español.

Componentes de la herramienta

La herramienta PDF a texto tiene tres anclas (dos de entrada y una de salida):

  • Ancla de entrada  D : (opcional) utiliza el ancla de entrada  D  para conectar una lista de rutas de archivos PDF o una lista de directorios que contienen archivos PDF. Hay varias formas de conectar la lista de rutas de archivos o directorios:

  • Ancla de entrada  T : (opcional) utiliza el ancla de entrada  T  para conectar anotaciones de la  herramienta Plantilla de imagen . Identifica regiones para la extracción de texto con anotaciones de cadenas y tablas. Recorta imágenes para su procesamiento posterior con anotaciones de imagen.

  • Ancla de salida: utiliza el ancla de salida para pasar los datos del texto extraído a otras herramientas en el flujo de trabajo.

Configurar la herramienta

  1. Agrega una herramienta PDF a texto al lienzo.

  2. (Opcional) Utiliza el ancla de entrada  D  para pasar una lista de rutas de archivos PDF o una lista de directorios que contienen archivos PDF a la herramienta PDF a texto.

  3. (Opcional) Utiliza el ancla de entrada  T  para pasar anotaciones de la herramienta Plantilla de imagen. Si conectaste la herramienta Plantilla de imagen y todas las páginas tienen el mismo diseño, selecciona Aplicar las anotaciones de la primera página de la herramienta Plantilla de imagen a todas las páginas .

  4. Si te conectaste al ancla de entrada  D , selecciona la columna que contiene las rutas de los archivos.

  5. Si no te conectaste al ancla de entrada  D , ingresa la ruta del archivo PDF. En cambio, puedes editar la ruta del archivo para que seleccione una carpeta y la herramienta leerá todos los PDF de esa carpeta.

  6. Selecciona una de las  Opciones de extracción de texto  según el contenido del archivo PDF.

  7. Selecciona tus  Opciones de salida .

  8. Ejecuta el flujo de trabajo.

Importante

La herramienta PDF a texto no admite la selección de páginas. Para seleccionar páginas específicas, filtra el resultado con una herramienta Filtro .

Opciones de extracción de texto

Leer contenido de texto e imagen

Los archivos PDF pueden contener una combinación de caracteres e imágenes de texto. Las imágenes de texto requieren reconocimiento óptico de caracteres (OCR) para extraer los caracteres de texto. Para archivos con imágenes de texto, utiliza la opción  Leer contenido de texto e imagen  para leer los caracteres de texto directamente y aplicar el OCR a las imágenes de texto. La adición del OCR entrega una cobertura completa de todo el texto en tu archivo.

Leer solo contenido de texto

Lee los caracteres del texto directamente desde tu archivo PDF. La extracción de los caracteres de texto es hasta diez veces más rápida que el OCR y es más exacta en general.

Utiliza la opción Puntuación de riesgo de texto codificado como gráfico para saber si es necesario el OCR para extraer todo el texto en la página. Esta opción es hasta dos veces más rápida que el OCR. Utiliza la opción "Generar imagen de los gráficos de la página en la salida" para incluir una imagen de los gráficos de la página en la salida de la herramienta.

Si la puntuación de riesgo de una página es media o alta, utiliza la  herramienta Imagen  para examinar el contenido de los gráficos de la página. Si la herramienta PDF a texto no contiene texto importante en los gráficos, vuelve a ejecutar la página con la opción   Leer contenido de texto e imagen .

Opciones de salida

  • Cadena: un registro por página. Una sola cadena para todo el texto de la página. Incluye caracteres de retorno de carro.

  • Líneas: un registro por línea de texto. Una sola cadena para la línea de texto.

  • Tabla delimitada por plecas: un registro por página. Una tabla delimitada por plecas para todo el texto de la página.

  • Tabla de Alteryx: un registro por línea de texto. Las columnas incluyen el texto subdividido en función de una superposición horizontal espacial dentro del texto.

Si seleccionas más de un formato, la salida incluye cada formato en filas separadas.

Ancla de entrada T (opcional)

La salida de la herramienta PDF a texto cambia cuando utilizas el ancla de entrada  T .

  • Una columna de salida adicional identifica la región de marcado para cada registro.

  • Las regiones de tabla y cadena se generan en todos los formatos de salida que selecciones.

  • La herramienta PDF a texto corta las regiones de la imagen y las convierte en archivos Blob de imagen. Visualiza los archivos Blob de imagen con la  herramienta Imagen .