Skip to main content

Icon for the Text Pre-processing Tool 文本预处理

使用文本预处理工具清理文本数据:

  • 将单词转换为词根(即词形转换)。

  • 筛选出不需要的数字、标点符号和停用词。

要求 Alteryx Intelligence Suite

此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用

重要

从 21.4 版本开始,当您选择 使用默认停用词 后,文本预处理工具将正确移除代词。在以往的版本中,该工具用 -PRON- 来替换代词。

语言支持

“文本预处理”工具支持英语、法语、德语、意大利语、葡萄牙语和西班牙语。

工具组件

文本预处理工具有 3 个锚点

  • 绿色输入锚点:使用顶部的绿色输入锚点连接要处理的文本数据。

  • 灰色输入锚点:使用底部的灰色输入锚点来传递列表中的停用词列表。我们建议使用 CSV 格式,但是列表可以是任何输入格式,只要停用词在单列中列出(每行 1 个词)即可。

  • 输出锚点:输出锚点将经过处理的数据传递到下游。

配置工具

  1. 在画布上添加一个文本预处理工具。

  2. 将文本预处理工具锚点连接到工作流中的文本数据。

  3. 选择数据的 语言

  4. 选择要使用的 文本字段

  5. 运行 工作流。

高级选项

文本预处理工具有高级选项

文本正则化

要将单词转换为词根,选中 转换为词根(词形转换) 复选框。

此选项可将衍生词转换为它们的词根。例如,“running”、“ran”和“runs”等单词在您对它们进行词形还原后都变成了单词“run”。这样一来,当您应用机器学习算法来分析这些单词时,机器能够识别出,所有这些单词都应分组在一起。

筛选

要删除数字,选中 数字 复选框。此选项可从数据中移除某些数字标记(即数字)。您可能希望选择此选项,因为数字可能会混淆某些自然语言处理算法。

要删除标点符号,选中 标点符号 复选框。此选项将移除数据中的标点符号。选择这个选项是为了避免标点符号混淆某些自然语言处理算法的情况。保留某些标点符号(如“Mrs.”中的句点)是因为它们具有意义。

要删除停用词,选中 停用词 复选框。默认情况下,某些停用词自动被删除。文本预处理工具使用 spaCy 包的默认值。spaCy 对于不同的语言拥有不同的停用词列表。您可以在 spaCy GitHub 存储库中查看各种语言停用词的完整列表:

您还可以删除默设置没有删除的停用词。在文本字段中输入您要删除的停用词。以逗号分隔的格式输入(即用逗号和空格分隔每个单词)。

输出

工具在结果网络中显示为数据创建的一个新列,列名称由被处理列的名称加上后缀指示符“_processed”组成。