优阅达 | Tableau 微课堂(64):Tableau Prep 输入步骤

published: 2023-05-31

Tableau Prep 输入步骤

向流程中添加数据

每个流程都从数据开始,且一个流程必须从至少一个输入步骤开始,尽管你可以在任何阶段继续向流程中添加新数据(新输入步骤)。

要在现有流程中添加数据,可以单击“连接”窗格中的“+”号。

如果还未创建流程,则需要创建一个流程并添加数据,从开始屏幕单击“连接到数据”。我们看到支持的数据源列表。如果选择连接到服务器,则需要特定于该数据源的连接信息。

这里,我们选择 Excel 。导航到本地文件,并单击“打开”。

“连接”窗格将在该数据连接中的表(或工作表选项卡)列表的顶部和底部显示数据连接。

我们可以选择打开数据解释器,它可以识别子表并清理标题行和空白列等内容。这里的数据解释器功能与 Tableau Desktop 中的一样。

要创建输入步骤,需要从“连接”窗格中拖出一个表。这将在流程中创建一个步骤,下面的“输入”窗格提供设置选项。

这里,我们将其设置为单个表。在右侧,可以看到数据中的字段,并选择要将哪些字段带入 Tableau Prep。

样本值显示每个字段中的数据类型,可以看到数据是如何格式化的。

我们还可以设置筛选器,限制将哪些数据带入流程的其余部分。例如,我们只考虑排名1-5的畅销书。

点击“添加筛选器”时,它会作为一个计算窗口打开。我们可以输入参数,如 Rank < 6,并查看筛选器返回操作。

要删除它,只需单击打开下拉菜单后移除即可。

通配符并集

假设我们希望将多个表作为数据输入的一部分,如果表的结构是一致的,可以执行“通配符并集”。输入步骤中的通配符并集与流程中的并集步骤不同,因为我们不能合并字段或修改模式。

数据样本

当连接到一个大数据集,默认情况下 Tableau Prep 会进行数据采样。取数据子集并将其带入流程中,以便进行操作和数据准备。

当运行流程时,将基于所有数据进行清洗,而不仅仅是样本数据。与尝试分析所有数据并在工作时对大数据集执行应用更改相比,该选项使构建流程过程中的性能更佳。

我们可以在输入窗格中的“数据样本”选项卡下设置样本。默认会对超过 100 万行的数据进行采样,但如果有大量的列,则该样本可能包含更少的行。

默认示例量基于数据集的大小,而不是显式行数。这意味着如果有 300 个字段,那么样本中的行数将少于 5 个字段。

或者,我们可以选择采样指定数量的行(上限为 100 万),或者我们可以选择使用所有数据(尽管在构建流程时会对性能产生影响)。

我们也可以选择一种抽样方法。“快速选择”包含数据源提供的任何行。它可能会遇到抽样问题,比如没有覆盖数据中的所有值(例如,当原始数据跨越十年时,只显示一年的数据)。

相对来说,也可以选择“随机抽样”。这将花费更长的时间来生成,且任何操作都将需要重新生成示例。尽管可以更全面展示整个数据集,却也可能会影响性能。

为了尽可能获得最具代表性的示例,需应用任何相关的筛选器并取消选择输入步骤中任何不相关的字段,而不是流程。

通过缩小输入中的字段或行范围,也就是说,在采样之前,要最大化样本的可用性。如果我们在输入步骤之后才删除字段或筛选器,那么示例将不具参考性。

新增输入步骤

输入步骤可以沿着流程中的任何点添加。每个数据源作为单独的步骤进入。

也可以与其他步骤联合或并集形成组合数据。

本节 Tableau 微课堂到此结束,感谢你的耐心阅读。

下节课将带你学习了解 Tableau Prep 清理步骤。