优阅达“优课堂” | 第7课:使用文本和准备数据
published: 2021-12-03 10:33

欢迎观看由优阅达制作的【优课堂】系列视频。第七节课是:使用文本和准备数据,你可以下载本视频所用数据集同步实操。


文本和 Excel 文件,是使用 Tableau 做可视化分析时常常会用到的2种数据源类型。本期优课堂视频将侧重于讲解:连接至以上 2 类数据源时,可以使用 Tableau Desktop 对数据源做哪些整理,以达到所需的分析结果。

PS:本视频中讲到的一些功能,例如“拆分”,也可用于其他数据源。但是,有一些功能仅适用于文本或 Excel 文件。


数据解释器

这里有一个 Excel 格式的报告,展示了每位员工每月解决的事件数。

首先,打开 Tableau Desktop,进入开始界面。在左侧数据源连接窗口中,选择 Microsoft Excel,导航到需要分析的数据源 “解决事件数.xlsx”,单击打开。在数据源界面,将数据表 “解决事件” 拖至空白画布中。

在 “数据概览” 窗格中可以看出,此数据源格式的显示效果并不是很好:没有列名称,Excel 文件中的许多标题都显示为 Null值,没有正常显示。

Tableau 也发现了这一问题,因此会建议使用“数据解释器”。我们勾选应用 “数据解释器” 。在 “数据概览” 窗格中可以看到,那些显示不正确的标题和 Null 值都已去除,可以正确识别每一列数据的标题。

如果想获得有关 “数据解释器” 作用的更多细节,可以单击旁边的 “查看结果”,将打开一个 Excel 文件,其中说明了所有更改信息。

点击 Excel 文件中的 “解决事件” Sheet标签,可以看出哪些字段用作标题,显示为红色;哪些字段被视为数据值,显示为绿色。


转置(数据透视表)

返回 Tableau 界面,再仔细看一下这个数据源结构,发现像这样的结构在 Tableau 中很难实现最优分析。

因此,可以考虑将其处理成类似数据库的数据格式,如下图所示的格式:分别包含一个日期列、员工列 和 已解决事件数列;每行包含日期值和员工所对应的解决事件数。这样的数据格式会扩展行,不会扩展列。

如果我们想将 “数据概览” 窗格中显示的数据格式,更改为单个日期列和解决事件数列的格式,只需按住 Shift 键,先后单击选中日期标题的第一列和最后一列,然后点击下拉小三角,在弹出的菜单中选择“转置”。

“数据概览”窗格中的“转置”功能,就是将原来各列和各行中的信息合并成两个新列,分别是转置字段名称和转置字段值。

可以看出,“转置字段名称” 实际就是“日期”。点击下拉小三角,选择 “重命名”,将命名更改为:时间。同样的方法,将“转置字段值”重命名为 “已解决事件数”。

请注意:“转置”功能只适用于文本或 Excel 格式的数据源。


拆分与自定义拆分

当数据源中包含了大量字段时,可以点击 “管理元数据” 按钮,更清晰地看到数据源所含的字段内容。现在,我们返回“数据概览”界面。

再仔细看看数据,发现“员工”字段实际包含了三种信息,ABCDE代表位置代码,后接员工ID号,员工ID号后是员工批次。

因此,我们可以基于该字符的连接分隔符,对该列进行拆分。单击选中“员工”列,然后通过点击下拉小三角进入上下文菜单,选择“拆分”。

现在,“数据概览”窗格中生成了两个新字段:“员工-拆分1”和“员工-拆分2”。拆分1表示位置代码,拆分2是员工ID,但并没有生成拆分3。

这是由于“员工”字段中并非所有值包含员工批次,所以标准拆分不起作用。因此,我们转而使用 “自定义拆分”。需要注意的是,不论是标准拆分还是自定义拆分,都要有相同的分隔符。

撤销上一步操作,重新进行拆分。选中“员工”列,点击下拉小三角,在菜单中选择“自定义拆分”。此处使用 “-” 字符作为分隔符,并希望拆分为3列。点击确定,看到“员工”字段被拆分为三列。

对这三列数据进行 “重命名” :拆分1重命名为位置代码;拆分2重命名为员工ID,拆分3重命名为员工批次。

此外,我们发现“时间”字段实际上是日期类型数据,因此可以点击类型图标,将“字符串”类型更改为“日期”类型。

现在,点击工作表1,就可以进行分析了。

将维度“员工ID”拖到行,维度“员工批次”也拖到行,将度量“已解决的事件”拖至列,然后点击工具栏的“降序排序”按钮,对视图进行排序。

从视图中可以明显看出:一组员工解决的事件数明显多于另一组员工。得出结论是:通常资深员工能够解决更多问题。



以上就是关于「使用文本和准备数据」的全部内容。感谢观看本视频,更多 Tableau 学习资源,请关注微信公众号“优阅达大数据生态”。