优阅达 | Tableau 微课堂(67):Tableau Prep 概要窗格

published: 2023-05-31

Tableau Prep 概要窗格

概要窗格面板

当我们处于清洁步骤时,在流程中通过条形图标指示,流程下面的窗格是概要窗格。

概要窗格帮助我们探索数据并理解其内容,这是与数据交互的一种强大方式。

对于离散数据,每个灰色条表示字段本身的一个值。条的长度表示具有该值记录的数量,而通过可视化滚动条可以看到数据分布的概况。

例如,我们可以看到大多数书名(Title)在数据中只出现一次,而 Ready Player One 出现了两次。

类似地,大多数作者(Author)只出现一次,但可对记录最多的作者进行排序并将其放在首位。

高亮显示

如果单击记录最多的作者一栏,它会以蓝色突出显示。在所有其他卡片上,与该作者相关的值也会被高亮显示。

使用 “Title” 栏中的可视化滚动条,可以找到作者的书名。还可以看到书的售价(Price)在10-20美元的范围内,分别有不同的排名等级,并都出现在 “Early & Middle” 的列表中。

类似地,如果我们单击 “Weeks on List” 字段的空值,会看到这里的空值对应到 “Previous Rank” 字段中的空值以及 “Early & Middle” 和 “Young Adult” 列表的全部空值。

而畅销书排行榜似乎没有提供这方面的信息。这种突出显示可以更容易检查数据的结构,并查看各个字段的分布和值之间的关系。

数据分布

离散数据以灰色条形显示,每个值在字段中表示。连续数据显示为直方图中的蓝色条,表示数据的范围。

以 “Price” 字段为例,看到最常见的价格是 10-20 美元,有 53 行数据,而在 50-60 美元范围内只有一行。

如果想看到实际的价格本身,可以打开菜单并将查看状态从摘要(Summary)更改为详细信息(Detail)。现在,在右侧得到了一个可视化滚动条,它显示了更详细的分布情况。

可以看到三个峰值,价格更便宜的书,可能平装书的交易价范围略高;

还有底部一个较长的条形,峰值出现在 20 美元以上。

回到摘要视图,如果我们多选“ Hardcover (精装本)”列表,可以肯定地看到,那些售价更高的是精装本。

连续数据的默认视图是间隔的摘要视图,这非常有利于检测异常值。例如,在 “Weeks on List” 字段中,可以直观地发现有几项记录在畅销书排行榜上比其他记录长得多。

我们可以深入研究,看看这些是数据记录的错误,还是仅仅是流行书籍的异常情况。如果在详细信息视图中,则很难看到其余记录与这些值之间的差距。

使用概要窗格来识别错误

接下里,点击进入一个更复杂的流程。这一次,看的是 2 月份内 4 周的全部数据。可以看到:ISBN、Author 和 Title 等字段有很多 null 值。这种状况出乎意料。

如果点击其中一个空值栏,可以看到它们来自哪一周。

现在,回到输入步骤。如果我们点击 “+” 号并选择“添加步骤”,就可以打开概要窗格,查看本周的数据。“Information” 字段中没有空值。

如果我们插入另一个步骤进行比较,那么所有的分隔符看起来都与其他周相同。一定有什么别的原因。

啊,等等!这个字段在一个星期内被称为 “Info” ,在另一个星期中被称为 “Information” 。

我们点击并集步骤看看,果然如此。现在,可以使用这些彩色条识别出 Info / Information 列不匹配。

我们将把 Information 拖到 Info 上合并它们,现在如果回到组合清理步骤,会看到 Title 和 Author 字段内的空值都消失了。

然而,概要窗格中仍然显示一些奇怪的条:Price 和 ISBN 字段还存在一些 null 值。点击其中一条,只能看到 Week 字段中 “02/21/2018” 周被高亮显示。现在,让我们返回查看这些数据。

插入一个步骤,然后单击 “Trade Paperback Fiction” 。在数据网格中,我们只能看到相关的值(这个操作类似于临时筛选器)。

看起来 Price 和 ISBN 之间是逗号而不是管道。

通过创建计算字段来解决这个问题:

REGEXP_REPLACE([Info], ",ISBN: "," | ISBN: ")

因为在联合和清洁步骤之前做了变更,所以回到后面的清洁步骤时,变更已经执行了,且数据已经整理好了,通过概要窗格,我们可以看到最后效果。

本节 Tableau 微课堂到此结束,感谢你的耐心阅读。

下节课将带你学习了解 Tableau Prep 转置步骤。