Power BI 微课堂 | 第7课:数据表存储模式

published: 2023-05-24

今天,我们继续来学习:数据表存储模式,深入了解 Power BI 中三种存储模式的差别与优势 。PS:本节课不提供练习数据源,请参考步骤在业务环境中使用。


》示例说明

对于新手来说,若要在 Power BI 中使用数据,最常用的方法是将其导入到 Power BI 数据集。导入数据意味着数据存储在 Power BI 文件中,并与 Power BI 报表一起发布。此过程可帮助你更轻松地与数据直接交互。但是,这种方法可能不适用于所有企业。

如果需要为 Tailwind Traders 销售部门构建 Power BI 报表,导入数据并不是理想的方法。需要完成的第一个任务就是在 Power BI 中创建数据集,以便构建视觉对象和其他报表元素。

然而,销售部门有许多不同大小的数据集。出于数据安全性考虑,不允许将数据的本地副本导入报表,因此不再提供直接导入数据选项。所以,需要创建与销售部门数据源的直接连接。

接下来,我们将介绍在将数据导入到 Power BI 时,如何确保满足这些业务要求。


》存储模式简介

在日常分析场景中,有时候因为数据安全要求,可能不允许直接导入副本。或者,你的数据集可能太大,加载到 Power BI 中所需的时间太长。如何避免产生性能瓶颈呢?

Power BI 使用表存储模式解决了这些问题。借助存储模式,用户可控制 Power BI 是否将表数据缓存到报表内存中。

其中,DirectQuery 模式非常有用,因为它可确保始终查看最新版本的数据。你可以直接在数据源中查询数据,无需将副本导入 Power BI。

我们还可以为模型中的每个表单独设置存储模式,这样做就实现了单一数据集,并在以下方面保有优势:

  • 查询性能:当用户与 Power BI 报表中的视觉对象交互时,数据分析表达式 (DAX) 查询会被提交到数据集。通过正确设置存储模式将数据缓存到内存中,可提升报表的查询性能和交互性。

  • 大型数据集:未缓存表不会出于缓存目的占用内存。可以对大型数据集启用交互式分析,这些数据集因过大或过于昂贵而无法完全缓存到内存中。可以选择哪些表值得缓存,而哪些不值得。

  • 数据刷新优化:无需刷新未缓存的表。可以只缓存满足服务级别协议和业务需求所需的数据,从而减少刷新次数。

  • 准实时需求:不进行缓存可能会让具有准实时需求的表受益,以减少数据延迟。

  • 写回:借助写回,业务用户可以更改单元格值,从而探索模拟方案。自定义应用程序可以将更改应用到数据源。未缓存表可以立即显示更改,可便于执行即时效果分析。


》存储模式类型

Power BI 中的存储模式类型有三种:导入、DirectQuery、双。

你可以通过此步骤快速访问存储模式:在左侧栏中切换到“模型”视图,选择数据表,然后在生成的属性窗格中,从“存储模式”下拉列表中选择要使用的模式(如下图所示)。

下面,让我们详细了解上述三种类型的存储模式。

  • 导入模式

使用导入模式,可以从数据源创建数据集的本地 Power BI 副本。你可以将所有 Power BI 服务功能用于此存储模式,包括问答和快速见解。数据刷新可按计划进行,也可按需进行。导入模式是创建新 Power BI 报表的默认方式。

  • DirectQuery 模式

如果你不希望保存数据的本地副本,则 DirectQuery 选项非常有用,因为你的数据将不会被缓存。而你可以使用本机 Power BI 查询来查询需要的特定表,所需数据将从基础数据源中检索。

实质上,你创建的是与数据源的直接连接。使用此模型可确保你始终查看最新的数据,并满足所有安全要求。

此外,此模式适用于要从中提取数据的大型数据集。无需将大量数据加载到 Power BI(加载大量数据会降低性能),可以使用 DirectQuery 来创建与源的连接,同时解决了数据延迟问题。

  • 双(双重模式)

在双重模式下,你可以确定要直接导入的某些数据以及必须查询的其他数据。引入到报表中的任何表都是导入模式和 DirectQuery 模式的结果。使用双重模式允许 Power BI 选择最有效的数据检索形式。



以上就是关于「数据表存储模式」的全部内容。感谢您的耐心阅读,更多 Power BI 学习资源,请持续关注优阅达大数据生态。