PDF 转文本

使用“PDF 转文本”工具从 PDF 文件中提取文本。PDF 文件可能包含文本字符和文本图像的组合。文本图像需要通过光学字符识别 (OCR) 来提取文本字符。“PDF 转文本”工具可以直接从 PDF 文件中提取文本字符。这款工具还可以利用光学字符识别功能从包含文本的图像中提取文本。对于通过扫描形成的图像文档（例如 JPG、PNG 和 BMP 文件），请使用图像转文本工具。

要求 Alteryx Intelligence Suite

此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证，并需要以 Designer 附加组件进行安装。安装 Designer 后，请安装 Intelligence Suite 并开始您的免费试用。

语言支持

如果选择 仅读取文本内容 ，那么“PDF 转文本”工具没有语言限制。

如果您选择 读取文本和图像内容 或 编码为图形的文本的风险评分 ，那么工具支持阿拉伯语、英语、法语、德语、意大利语、日语、葡萄牙语、简体中文和西班牙语。

工具组件

“PDF 转文本”工具有 3 个锚点（2 个输入和 1 个输出）：

D 输入锚点：（可选）使用 D 输入锚点连接 PDF 文件路径列表或包含 PDF 文件的目录列表。连接文件路径或目录列表的方法有多种：
- 使用输入数据工具从 CSV、XLSX 或 TXT 文件添加文件路径或目录列表。
- 在文本输入工具中手动输入文件路径或目录。
- 使用目录工具生成文件夹内的文件路径列表。
T 输入锚点：（可选）使用 T 输入锚点连接图像模板工具中的注释。识别含字符串和表格注释的文本提取区域。裁剪图像以便用图像注释进行下游处理。
输出锚点：使用输出锚点将提取的文本数据传递到下游。

配置工具

在画布上添加“PDF 转文本”工具。
（可选）使用 D 输入锚点将 PDF 文件路径列表或包含 PDF 文件的目录列表传递到“PDF 转文本”工具。
（可选）使用 T 输入锚点传递“图像模板”工具中的注释。如果您已连接图像模板工具，并且所有页面的布局相同，请选择 将图像模板中的第一页注释应用到所有页面 。
如果您已连接到 D 输入锚点，请选择包含文件路径的列。
如果您尚未连接 D 输入锚点，请输入 PDF 文件路径。您也可以编辑指向某个文件夹的文件路径，然后该工具会读取相应文件夹中的所有 PDF。
根据 PDF 文件中包含的内容选择一个 文本提取选项 。
选择您的 输出选项 ：
运行工作流。

重要

PDF 转文本工具不支持选择页面。要选择特定页面，请使用筛选工具对输出结果进行筛选。

文本提取选项

读取文本和图像内容

PDF 文件可能包含文本字符和文本图像的组合。文本图像需要通过光学字符识别 (OCR) 来提取文本字符。对于带有文本图像的文件，使用 读取文本和图像内容 直接读取文本字符并以光学字符识别功能来读取文本图像。增加光学字符识别功能之后，可以全面识别文件中的所有文本。

仅读取文本内容

直接从 PDF 文件中读取文本字符。仅提取文本字符速度比光学字符识别快10倍，而且通常更准确。

以 编码为图形的文本的风险评分 指导是否需要光学字符识别来提取页面上的所有文本。此选项比光学字符识别快 2 倍。 输出页面图形的图像 选项能在工具输出中包含页面图形的图像。

如果页面风险评分为“中”或“高”，请使用图像工具检查页面的图形内容。如果“PDF 转文本”工具遗漏了图形中的重要文本，请使用 读取文本和图像内容 选项再次运行页面。

输出选项

一页为一条记录。页面上所有文本作为一个字符串。包括换行字符。
行：每行文本为一条记录。由单个字符串代表。
竖线分隔表格：一页为一条记录。页面上所有文本的竖线分隔表格。
Alteryx 表格：每行文本为一条记录。列中包括基于文本内水平空间重叠的细分文本。

如果选择多个格式，输出将包括不同行中的每种格式。

T 输入锚点（可选）

当您使用 T 输入锚点时，“PDF 转文本”工具的输出会发生变化。

另一个输出列标识每个记录的标记区域。
您选择的所有输出格式都包括字符串和表格区域。
“PDF 转文本”工具可裁剪图像区域，并将其输出为图像 Blob 文件。使用图像工具查看图像 Blob 文件。

本节内容如下: