Power BI 微课堂 | 第13课:用 Power Query 简化数据结构

published: 2023-08-15

今天,我们来学习:用 Power Query 简化数据结构,学习如何重命名查询表、替换或删除数据表中的值等,进而为更好的分析做好准备。


》前言

将数据从多个源导入 Power BI Desktop 时,数据将保留其预定义的表和列名。你可能需要更改其中的一些名称,使它们的格式保持一致、更易于处理,以帮助用户更好洞察和理解。

在 Power BI Desktop 中,我们可以使用 Power Query 编辑器对这些名称进行更改并简化数据结构。

  • 场景描述

在本期微课堂中,你需要采取进一步措施来简化销售数据的结构,并准备好数据为销售团队开发报表。

你重命名了这些列,但现在你需要检查查询(表)的名称,以确定是否可以进行任何改进。你也需要查看列的内容,并替换任何需要更正的值。


》重命名查询

将不常见或无用的查询名称更改为更明显或用户更熟悉的名称,是比较好的做法。

例如,如果将产品事实数据表导入 Power BI Desktop,并且查询名称显示为“FactProductTable”,则可能需要将它更改为对用户易记名称(如“Products”)。

同样,如果导入视图,此视图的名称可能会带有“v”前缀,例如“vProduct”。你可能会发现这一名称不清楚且令人混淆,因此,可能需要删除此前缀。

在本例中,你检查了 TargetSales 查询的名称,意识到此名称是无用的,因为你会针对性地查询每年的情况。若要避免混淆,需要将年份添加到查询名称。

如下图所示,在 Power Query 编辑器左侧的“查询”窗格中,选中想要重命名的查询,右键单击查询并选择“重命名”。编辑当前名称或键入新名称,然后按 Enter。


》替换值

可使用 Power Query 编辑器中的“替换值”功能,将所选列中的任何值替换为另一个值。在本例中,你会注意到在“Attribute”列中,月份 December 拼写错了,需要更正此拼写错误。

这里,我们选择包含想要替换的值的列(在本例中为“Attribute”),然后选择“转换”选项卡上的“替换值”。

在“要查找的值”框中,输入想要替换的值的名称。接着在“替换为”框中,输入正确的值名称,然后选择“确定”。请注意,在 Power Query 中,你无法像在 Excel 中一样选择一个单元格和更改一个值。

我们可以在“查询设置”窗格中,查看对数据进行重建格式和更正所采取的步骤列表。完成需要进行的所有步骤后,可选择“关闭并应用”关闭 Power Query 编辑器,将更改应用到数据模型。当然,你也可以采取进一步操作来清理和转换数据。


》替换 NULL 值

有时,你可能会发现数据源包含 NULL 值。例如,销售订单中的运费金额可能会有一个 NULL 值(只要它与零同义)。如果此值保持为 NULL,聚合计算将出错。

一种解决方法是将 NULL 更改为零,这将生成更准确的运费平均值。在此实例中,使用之前进行的相同步骤将帮助你将 NULL 值替换为零。


》删除重复项

还可以使用 Power Query 中的“删除重复项”功能从列中删除重复项,从而在所选列中仅保留唯一名称。

在本例中,可以注意到“Category Name”列包含每一类别的重复项。因此,需要创建包含唯一类别的一个表,并将它用于数据模型中。

我们可以通过以下方式实现此操作:选择一列,右键单击此列的标头,然后选择“删除重复项”选项。

也可以考虑在删除重复项之前复制表。如下图所示,“复制”选项位于上下文菜单的顶部。如有需要,在删除重复项之前复制表使你能够比较表并能够使用这两个表。


》命名表、列和值的最佳做法

表、列和值的命名没有固定的规则。但是,我们建议使用你的企业内常用的且所有人都一致认同是常用术语的语言和缩写。

最佳做法是为表、列和度量值提供描述性的业务术语,并将下划线(“_”)替换为空格。请务必保持缩写、前缀以及“number”和“ID”等词的一致性。如果不是在企业内常用的缩写,那么过短的缩写可能会导致混淆。

此外,可以删除可能在表名中使用的前缀或后缀,并改为以简单的格式对它们进行命名,这将有助于避免混淆。

替换值时,请尝试想象这些值将如何显示在报表中:过长的值可能难以阅读并且难以融入视觉对象中;过短的值可能难以理解。只要文本适合视觉对象,避免对值使用缩写也是一个不错的方案。



以上就是关于「用 Power Query 简化数据结构」的全部内容。感谢您的耐心阅读,更多 Power BI 学习资源,请持续关注优阅达大数据生态。