优阅达 | Tableau 微课堂(71):Tableau Prep 并集步骤

published: 2023-05-31

Tableau Prep 并集步骤

本期课程,我们将使用 “ ABA Bestsellers 2月份数据” 作为数据源演示操作。

合并数据

通过引入与原始数据结构相匹配的新行或记录(即字段或列是相同的数据类型),执行合并可以组合来自多个表的数据。

例如,如果已有单独每个星期的畅销书数据文件,想要创建一个统一全部星期的数据源,就可以通过并集实现。

通配符并集

如果希望合并后的表具有完全相同的结构模式,通过通配符并集可以在输入步骤中执行合并(前提是使用平面文件)。

通过向流中添加单个数据输入,即使流由许多表组成,也可以保持流的整洁度。从 Excel 文件中添加一个数据连接,这里选择 2 月 28 日的数据。

将表带到流里,在输入步骤的配置窗格中,单击“多个文件”选项卡,然后选择通配符并集。

可以看到,这个数据源文件包含7个工作表选项卡,用于7个不同的畅销书列表,详情如连接窗格中所示。

通配符并集要求所有文件具有相同的格式(例如,所有 Excel 或所有 CSV )。通过标识一个模式来定义要包含的内容,可以自动地统一多个表。

请注意,不能对不匹配的带有通配符并集的字段执行合并。

我们可以设置要搜索的文件夹(包括子文件夹)、设置是否包含或排除匹配模式的文件,并指定模式本身。

如果我们想在以 “ABA 畅销书” 开头的同一个文件夹中包含任何文件,可以删除这些单词之外的所有内容,并添加*号。

请注意,我们目前正在查看 1 个文件和 7 个工作表。但当点击回车键应用这个匹配模式时,变成了有 9 个文件和 37 个工作表。

如果想要包含或排除的纸张设置模式,例如只为贸易平装小说或非小说引入纸张数据,可以通过使用匹配模式 Trade* ,随后点击回车或 Apply(应用)。

撤销这一步操作,回到默认值,也就是只有这个文件和它里面的所有表格的界面。

请注意,无论定义通配符并集的范围如何,都会自动将两个字段添加到字段列表中。

Table Names(表名)将表示表名或工作表选项卡,File Paths(文件路径)将表示原始文件路径。这有助于跟踪数据的来源。

添加并集步骤

要在输入步骤内的通配符并集之外执行合并操作,可以向流添加并集步骤。至少需要两个输入步骤才能联合起来。

示例中有2月份4个周的畅销书数据。要在流中执行并集,可以从“+”菜单中添加并集,选择“添加并集”并将一个步骤拖到其中。或者可以将一个步骤拖到另一个步骤上,为新并集步骤选择拖放区域。

与只能支持两个表的联接不同,并集可以由许多表组成。只需将另一个表拖到并集上,选择“添加”拖放区域。选择“并集”将在流中添加后续并集步骤。

并集概要窗格

选中流中的并集步骤将打开下面的概要窗格。左侧是一个摘要,它显示了输入和生成的字段。这里看到有两个不匹配的字段。

在右侧,可以看到并集结果。字段卡上的彩色条与输入匹配,并显示这些字段中的数据来自何处。

可以看到 “Info” 字段缺少了14日那一周的内容。往后拉发现有一个 “Information” 列,就是那一周的内容。显然,这两个字段应该是相同的。

为了更容易看到,选中“只显示不匹配的字段”框。现在我们只看到这两个字段,可以通过合并它们来解决这个问题。

只需将一张卡片拖到另一张上。我们要把字段命名为 Info,所以要把 Information 放到 Info 中。现在不再有任何不匹配的字段。

不勾选复选框会再次显示完整的结果,可以看到每张卡片都有4个颜色条。唯一的例外 是Table Names-1 字段。

Tableau Prep 自动创建了这个字段,因此可以看到数据来自何处。该字段是原始表名和文件路径(来自输入步骤中的通配符并集)的冗余信息,因此可以删除该字段。

我们不能从并集步骤中移除,需要添加一个清洁步骤,才可删除。最后,这一合并了4个数据源的数据已完成!

本节 Tableau 微课堂到此结束,感谢你的耐心阅读。

下节课,我将带你学习了解 Tableau Prep 输出步骤。