Tableau 优课堂 | 第79课:Tableau Prep 将值分组

published: 2024-01-30

欢迎观看由优阅达制作的【优课堂】系列视频。本节课,我们来学习: Tableau Prep 将值分组。


方法一:将值分组选项

数据清理中一个常见问题是存在多个代表同一含义的值,如 MB 和 Medium Box。

如果想在 Tableau Prep 中解决这个问题,可以在“清理步骤”中使用“将值分组”选项。这个选项允许我们对多个值进行分组,并用统一值替换它们。

为了更好地演示,我们先在示例数据流中添加一个清理步骤。在概要窗格中,可以看到订单数据集中的所有字段。


01 手动选择

如图所示, “产品包装”字段中显示了一个常见的数据清理问题:如何处理特定信息片段的不一致性,同一种包装方式被记录成多种不同的值。

由于暂时没有简便的编程方法让它们保持一致,因此需要手动分组并替换它们。

首先,单击“产品包装“字段的卡片并打开菜单。选择“将值分组”-“手动选择”选项。

无论先选择的是什么,它都会成为替换值,这里使用 “Medium Box”。选中替换值后,编辑器右侧将显示其余的值。选中所有需被替换的值,加入分组。

编辑器左侧将显示了此字段新值的预览,“Medium Box” 旁边显示了一个回形针分组图标,这代表它是一个分组值。

我们对 “Wrap Bag” 的值执行相同操作。先在左侧选中它,并从右侧选择要设置分组的值(即被替换的值)。

如果我们将值分组错了,怎么办呢?不用担心,取消勾选该值就可以了,然后把它归到所属的组。

值得说明的是,我们还可为组添加定义域外的新值。例如,单击编辑器顶部的“+”图标,输入一个定义域外的新值 “WB” ,新值不会被添加到任何组中。

我们把它分到“Wrap Bag” 组内,尽管它目前不在数据域,但也可以将它手动添加入组。当刷新数据出现这些新值时,那么这些值将自行分到所在的组。

如上所述,手动选择可以较好处理不正确、不规则或与期望值有明显差异的情况。但是,还有三个选项可以应用算法来对值进行分组。


02 模糊匹配算法-发音

在 “客户名称” 一栏中,同一名字拼写有几个变体。在每个实例中,错误版本的发音至少大致与正确拼写的发音相同。这是拼写检查程序可能捕捉到的错误类型。

单击选中“客户名称”字段卡片,打开下拉菜单,然后选择“将值分组”-“发音”选项,它将使用 Metaphone 3 算法自动处理这些拼写错误。

这里的分组是自动生成的,我们可以在编辑器的左侧看到新组。因为正确的拼写是最常见的值,所以选择它作为替换值。

如果替换值不是期望值,可以右键单击新组,选择“编辑值”选项,然后将其修改为期望值。

单击组名,还将打开编辑器的右侧列表,并公开组中的值。如果需要,可手动向组添加值或从组中删除值。


03 模糊匹配算法-常用字符

第三个将值分组选项是“常用字符”。在 “销售经理” 字段列中,我们看到一些姓名被记录为先姓后名,有的是先名后姓。我们不想让同一个人有两个值,所以将它们进行分组。

单击选中“销售经理”字段卡片,打开下拉菜单,选择“将值分组”-“常用字符”选项,相同的值会自动分成一组。

请注意,“常用字符”选项是使用 N-gram 指纹算法根据单词的唯一字符进行识别。例如,经过识别,Russell Alex 和 Alex Russell 是一样的。

与发音一样,按“常用字符”分组是自动的,组中最常见的值将成为替换值。


04 模糊匹配算法-拼写

查找拼写类似的值对其进行分组,此选项使用 Levenshtein 距离算法,使用固定默认阈值来计算两个文本间的编辑距离。

例如,单击选中“产品ID”字段卡片,打开下拉菜单,选择“将值分组”-“拼写”选项,字段值会自动分组。

对类似值进行分组时,可以使用字段上的简单滑块来调整分组参数的严格程度,从而使你更大程度地控制结果。


算法说明

重要的是要记住,算法并不100%精确,建议查阅分组以确保数据没有被错误分组。

自动创建的组也可以像手动分组一样,通过单击替换值栏,在右侧进行修改。

虽然单次只能执行分组和替换的其中一种方法,但是如果算法遗漏了应该存在的组,除了自动分组之外,还可以在编辑器中手动创建分组。


方法二:手动编辑值实现分组

最后,如果需要简单处理“客户类型”字段,或其他小规模问题,可以直接“编辑值”。

例如,通过右键编辑“客户类型”字段中的值“小本买卖”,将其改为“小本生意”,它将自动与小本生意值分为一组。



以上就是关于「Tableau Prep 将值分组」的全部内容。感谢观看本视频,更多 Tableau 学习资源,请持续关注优阅达大数据生态。


更多相关信息,请访问专题页: Tableau使用入门教程