举个栗子!Tableau 技巧(173):用 Prep 轻松实现数据去重

published: 2022-09-16

上周,Tableau 2020.4 发布 ,新功能特性 浏览器中的 Prep Builder,吸引了很多数据分析用户的眼球。有数据粉咨询:我想用 Tableau Prep 处理数据,数据源有比较多重复项,如何轻松去重呢?

的确,数据去重是很普遍的一个需求场景,使用 Prep 去重的步骤并不复杂,学起来!

本期《举个栗子》,我们要给大家分享的 Tableau 技巧是:用 Prep 轻松实现数据去重。


为方便学习,栗子使用 Tableau 自带的"示例-超市"数据源。掌握栗子方法后,数据粉可尝试使用自己的数据源。

在“示例-超市”数据源中,增加一行复制数据,生成重复的数据(如下图)。

具体步骤如下:

1、导入数据源

打开 Tableau Prep,单击“连接数据”,在连接列表中选择“Microsoft Excel”,在弹出的对话框中选择刚刚处理好的“示例-超市”数据源。


将左侧“订单”表拖放至右侧画布中。此处,可右键单击“订单”图标,修改图标颜色(例如下图橙色),便于区分处理步骤。



单击橙色订单图标右侧的“+”按钮,在下拉菜单中选择:+ 清理步骤,生成一个新的清理步骤。

2、创建计算字段

单击“创建计算字段...”,依次创建 2 个计算字段:


➤ 创建计算字段:排序,键入函数

{ ORDERBY [行 ID] : RANK()}


Tips:可根据业务场景,自行在 ORDERBY 后添加判断重复的字段,字段之间以逗号分隔。


➤ 创建计算字段:分组计数,键入函数

{ PARTITION [排序]:

{ ORDERBY [排序]:

ROW_NUMBER()}}


3、数据去重

在“清理1”窗格的“更改数”选项卡中,选择“筛选器”,将分组计数结果仅保留:1,即可完成去重。

4、预览和输出

右键单击任意流程,选择:在 Tableau Desktop 中预览,可以查看数据的清洗是否符合分析要求。


最后,单击“清理1”图标右侧的“+”按钮,在下拉菜单中选择:输出,增加数据输出流程。


选择存储位置、设置文件名以及文件格式后,点击运行流程 ▷ 按钮即可导出数据源。

今天的 Tableau 技巧,你 Get 到了吗?赶快试试看吧!