Tableau 优课堂 | 第77课:Tableau Prep 输入步骤

published: 2024-01-03

欢迎观看由优阅达制作的【优课堂】系列视频。本节课,我们来学习: Tableau Prep 输入步骤。


向流程中添加数据

每个 Tableau Prep 流程都必须从连接数据开始,且每个流程至少从一个输入步骤开始,你也可以在流程中的任何阶段添加新的数据(即新的输入步骤)。

要在现有流程中添加数据,可以单击左侧“连接”窗格中的“+”号。

如果还未创建流程,则需要创建一个流程并添加数据。

在开始界面中单击“连接到数据”按钮,我们可以看到 Tableau Prep 支持的数据源列表。请注意,如果选择连接“到服务器”,则需要提前准备好该数据库的连接信息。

在本实例中,我们选择 Excel 。导航到本地文件,并单击“打开”。这时,连接到的工作表将显示在“连接”下方的窗格中。

我们可以选择打开“数据解释器”,它可以识别子表并清理标题行和空白列等内容。如果你对 Tableau 比较熟悉,会发现这里的“数据解释器”功能与 Tableau Desktop 中的一样。

要创建输入步骤,需要从“连接”窗格中拖出一个数据表,这将在流程中创建一个输入步骤。下面的“输入”窗格提供了四个选项卡,我们依次查看一下这些选项卡可以做什么。

首先,是“设置”选项卡。在这里,我们可以设置是否启用“增量刷新”,下面是选择增量刷新的字段。

在右侧,可以看到数据中的字段,并选择要将哪些字段带入 Tableau Prep。此外,还可以设置筛选器,选择将哪些数据带入流程。例如,我们只考虑Order ID小于5000的订单。

点击窗格顶部的“筛选器值”按钮,会弹出一个计算编辑窗口。我们可以输入公式,如 [Order ID]<5000,并查看筛选器返回操作。

要删除它,只需右键单击 Order ID 字段右侧的“漏斗”按钮,选择“移除”选项即可。


单个表或合并多个表

其次,是“多个文件”选项卡。大多数情况下,业务用户只需连接单个表(数据子集)。但是,当我们希望将多个表作为数据输入的一部分,且表的数据结构是一致的,就可以执行“通配符并集”了。

需要注意的是,输入步骤中的“通配符并集”与流程中的“并集步骤”不同,因为我们不能合并字段或修改模式。

PS:最新版 Tableau Prep 中功能名称可能不同,但作用是一致的。


数据样本选项

再者,是“数据样本”选项卡。如需了解最新功能,请点击:使用 Tableau Prep 分层抽样新功能,智能化你的数据准备流程!

默认情况下,当我们连接到一个大数据集时,Tableau Prep 会自动进行数据采样,取数据子集并将其带入流程中,以便用户进行操作和数据准备;且当我们运行流程时,Prep 会基于所有数据进行清洗,而不仅仅是样本数据。

如果 Tableau Prep 在用户编辑流程时,分析所有数据、并在工作时对大数据集执行应用更改,这样会严重影响性能。相比之下,数据采样可以使构建清洗流程时的性能更佳。

在这里,我们可以设置样本量和抽样方法。

默认情况下, Tableau Prep 会对超过 100 万行的数据进行采样。但如果数据中有大量的列,则该样本可能包含更少的行。

也就是说,“默认示例量”选项是基于数据集的大小,而不是行数。比如数据集有 300 个字段,那么样本的行数会少于 5 。

或者,我们可以选择采样指定数量的行,上限为 100 万。

或者,我们可以选择“使用所有数据”。当然,这会在构建流程时对性能产生影响。

此外,我们也可以选择一种抽样方法。

“快速选择”选项,包含数据源提供的任何行。它可能会遇到抽样问题,比如:没有覆盖数据中的所有值,或者当原始数据跨越十年时,只显示一年的数据。

相对来说,你也可以选择“随机抽样”。这将花费更长的时间来生成,且任何操作都将需要重新生成示例。尽管可以更全面展示整个数据集,却也可能会影响性能。

为了尽可能获得最具代表性的示例,需综合运用“筛选器”并删除输入步骤中任何不相关的字段,而不是在流程中减少输入中的字段或缩小行范围。

也就是说,在采样之前,就要最大化样本的可用性。如果在输入步骤之后才删除字段或筛选器,那么示例将不具参考性。

最后,是“更改数”选项卡。如你所见,这里记录着之前对数据进行更改的具体信息。


在流程中新增输入步骤

输入步骤可以沿着流程中的任何点添加,每个数据源即可以作为单独的步骤进入,也可以与其他步骤“联接”或“并集”形成组合数据。



以上就是关于「Tableau Prep 输入步骤」的全部内容。感谢观看本视频,更多 Tableau 学习资源,请关注微信公众号“优阅达大数据生态”。


更多相关信息,请访问专题页: Tableau使用入门教程