Skip to main content

准备

准备数据用于下游分析。

项目

描述

自动列工具

使用“自动字段”工具自动更改列类型和大小,实现字符串数据的有效存储。

创建样本工具

使用创建样本将输入记录拆分为 2 个或 3 个随机样本。

数据清理专业工具

使用“数据清理专业版”修复常见的数据质量问题。您可以替换 null 值、移除标点符号和 HTML 标记、修改大小写等。

数据清理工具

使用数据清理工具修复常见的数据质量问题。用户可以替换 Null 值、移除标点符号、修改大小写等。

筛选工具

使用筛选工具,根据条件选择数据。

公式工具

使用公式工具创建新列、对列进行更新、使用一个或多个表达式来执行各种计算和运算。

生成行工具

“生成行”使用表达式创建新的数据行。

Imputation Tool

使用数值替换以清理数据中缺失的值。

Multi-Column Binning Tool

使用多列分箱工具,可对多个数据列执行平铺或分箱操作。

多列公式工具

使用多列公式,可利用一个表达式创建或更新多列。

Multi-Row Formula Tool

使用多行公式工具,可借助行数据构建公式,进而创建和更新数据列。

Oversample Column Tool

使用“过采样字段”根据不平衡数据自动创建平衡采样,以便用于统计建模。

随机百分比抽样工具

使用“随机百分比抽样”工具可返回预期行数,从而生成传入数据流的随机样本。

排名工具已过滤掉此文档。以下属性用于过滤:<strong>audience</strong> (<i>Standard Mode</i>)。

使用排名工具对数据进行排名,以进行进一步处理或输出。

“行 ID”工具

使用行 ID 在数据中创建一个新列,用于为数据中的每行分配一个按顺序递增的唯一标识符。

抽样工具

利用样本将数据流限制为指定的数目、百分比或随机行数。此外,抽样工具还将所选配置应用于分组所依据的列。

选择工具

使用“选择”工具可对流经工作流的数据列进行添加、排除和重新排序。

“选择行”工具

使用选择行工具返回指定的行和行范围,包括不连续的行范围。此工具可用于故障排除和数据抽样。

排序工具

排序工具根据指定数据字段值的字母数字顺序,对表格中的行进行排序。

分块工具

使用分块工具可根据数据范围分配一个值(分块)。该工具基于用户指定的 3 种方法之一来执行此操作。

唯一值工具

利用唯一值工具对一个或多个指定列进行分组,然后对这些列进行排序,从而区分行是唯一的还是重复的。