发布主题：全部基础入门数据连接数据处理数据建模 DAX 计算创建报表可视化效果

Power BI 微课堂 | 第24课：在 Power BI Desktop 中管理存储模式

发布于： 2024-02-22

今天，我们开始学习：在 Power BI Desktop 中管理存储模式，了解存储模式的各种属性设置选项及其相关优势。

》存储模式简介

在 Microsoft Power BI Desktop 中，我们可以指定表的存储模式。借助存储模式，可以控制 Power BI Desktop 是否将表数据缓存到报表内存中，这意味着可暂时将数据存储在内存中。

设置存储模式带来了许多优势，比如可为模型中的每个表单独设置存储模式，如此就实现了单一语义模型，并带来以下优势：

优势一：查询性能。当用户与 Power BI 报表中的视觉对象交互时，数据分析表达式 (DAX) 查询会被提交到语义模型。通过正确设置存储模式将数据缓存到内存中，可提升报表的查询性能和交互性。
优势二：大型语义模型。未缓存表不会出于缓存目的占用内存。我们可以对大型语义模型启用交互式分析，这些语义模型因过大或过于昂贵而无法完全缓存到内存中。此外，还可以选择哪些表值得缓存，而哪些不值得。
优势三：数据刷新优化。无需刷新未缓存的表。我们可以只缓存满足服务级别协议和业务需求所需的数据，从而减少刷新次数。
优势四：准实时需求。不进行缓存可能会让具有准实时需求的表受益，从而减少数据延迟。
优势五：写回。借助写回，业务用户可以更改单元格值，从而探索模拟方案。自定义应用程序可将更改应用到数据源。未缓存表可以立即显示更改，可便于执行即时效果分析。

Power BI Desktop 存储模式设置与以下功能相关：

复合模型：允许报表有任意组合的两个或多个数据连接，包括 DirectQuery 连接或“导入”。
多对多关系：借助复合模型，可以在表之间建立多对多关系。在多对多关系中，删除了对表中唯一值的要求。它还删除了旧解决办法，如为建立关系而仅引入新表。
存储模式：借助数据模型，可以指定哪些视觉对象需要查询后端数据源。导入的是不需要查询的视觉对象，即使基于 DirectQuery，也不例外。此功能有助于提升性能，并减少后端负载。以前，甚至是切片器等简单视觉对象，也会启动发送至后端源的查询。

》使用存储模式属性

“存储模式”属性是可在模型中的每个表上设置的属性，可用于控制 Power BI 如何缓存表数据。我们可通过两种方法设置“存储模式”属性，或查看其当前设置：

在“模型”视图中，选择要查看或设置其属性的表。

在“属性”窗格中，展开“高级”部分，然后展开“存储模式”下拉列表。

如上图所示，“存储模式”属性设置提供了以下三个选项：

导入：缓存具有此设置的导入表。如果查询提交到 Power BI 语义模型，且返回“导入”模式表数据，那么就只能通过缓存数据完成。
DirectQuery：不会缓存具有此设置的表。如果查询提交到 Power BI 语义模型（例如 DAX 查询），且返回 DirectQuery 表数据，那么就只能通过对数据源执行按需查询完成。提交到数据源的查询使用相应数据源的查询语言（例如 SQL）。
双重：具有此设置的表可充当缓存表，也可以充当未缓存表，具体视提交到 Power BI 语义模型的查询的上下文而定。在一些情况下，查询是通过缓存数据完成。在另一些情况下，查询是通过对数据源执行按需查询完成。请注意，将表的“存储模式”更改为“导入”是无法撤消的操作。设置此属性后，无法将此属性更改回“DirectQuery”或“双”。

需要说明的是：可在 Power BI Desktop 和 Power BI 服务中使用“双”存储模式。

》DirectQuery 表和“双”表约束

“双”模式表与“DirectQuery”模式表的功能约束相同。这些约束包括有限 M 转换，以及计算列中的受限 DAX 函数。

》“双重”设置的传播

请考虑下列模型，其中所有表都来自支持导入和 DirectQuery 的单个源。

假设此模型中的所有表最初都设置为“DirectQuery” 。然后，如果将“SurveyResponse”表的“存储模式”更改为“导入”，便会看到以下警告窗口：

可将维度表（客户、地域和日期）设置为“双重”，以减少语义模型中的有限关系数，并提高性能。有限关系通常涉及至少一个 DirectQuery 表，其中联接逻辑无法推送到源系统。由于“双重”表可以充当“DirectQuery”或“导入”表，因此可以避免这种情况。

传播逻辑旨在帮助包含多个表的模型。假设你有一个带 50 个表的模型，只有某些事实（事务）表需要进行缓存。Power BI Desktop中的逻辑会计算出必须设置为“双” 的维度表的最小集，因此你不必再动手计算。

传播逻辑只遍历一对多关系的“一”方。

》存储模式的使用情况示例

假设应用以下存储模式属性设置：

假设“销售”表中有大量数据，设置这些存储模式属性会导致以下行为：

由于 Power BI Desktop 缓存维度表（日期、客户和区域），因此当报表检索要显示的切片器值时，初始报表的加载速度应该会很快。
Power BI Desktop 不会缓存“销售”表。如果不缓存此表，Power BI Desktop 实现以下结果：数据刷新速度加快，内存占用减少；基于“销售”表的报表查询在 DirectQuery 模式下运行。这些查询可能需要更长时间才能完成，但更接近实时，因为缓存延迟未引入。
由于基于“SurveyResponse” 表的报表查询从内存中缓存返回，因此速度应相对较快。

》命中或错过缓存的查询

如果将 SQL Profiler 连接到 Power BI Desktop 的诊断端口，可执行基于以下事件的跟踪，从而确定哪些查询命中或错过了内存中缓存：

Queries Events\Query Begin
Query Processing\Vertipaq SE Query Begin
Query Processing\DirectQuery Begin

对于每个“Query Begin” 事件，使用相同的 ActivityID 查看其他事件。例如，如果没有“DirectQuery Begin”事件，但有“Vertipaq SE Query Begin”事件，表明已通过缓存对查询进行应答。

引用“双”模式表的查询从缓存中返回数据（若有），否则会还原为“DirectQuery”模式。

以下查询从上一个表继续。它只引用“Date”表中的列，该表处于“双”模式。因此，查询应该能命中缓存：

以下查询仅引用“销售” 表中的列，该表处于“DirectQuery” 模式。因此，它不应命中缓存：

下图的查询非常有趣，因为它结合了这两个列。此查询未命中缓存。最初可能希望它从缓存中检索 CalendarYear 值，并从源中检索 SalesAmount 值，然后合并结果。

但这种方法的效率要低于将 SUM/GROUP BY 运算提交到源系统中。如果该操作向下推送到源，返回的行数可能会少得多。

需要说明的是：合并缓存表和非缓存表时，此行为不同于 Power BI Desktop 中的多对多关系。

》缓存应保持同步

上文中显示的查询表明，“双”模式表有时会命中缓存，有时也不会。因此，如果缓存已过期，可能返回不同的值。

查询执行不会试图掩盖数据问题，例如通过筛选 DirectQuery 结果以匹配缓存值。了解数据流是企业的责任，需要相应地进行设计。如有必要，有一些现成的技术可在源中处理此类情况。

“双” 存储模式是一种性能优化。只有在不影响满足业务需求的情况下，才能使用它。

》数据视图

如果语义模型中至少有一个表的“存储模式”设置为“导入”或“双重”，系统便会显示“数据”视图选项卡。

在“数据”视图中选择“双”和“导入”模式表时，它们会显示缓存数据。“DirectQuery”模式表不显示数据，而是显示消息，以指明无法显示 DirectQuery 表。

》注意事项和限制

- 当前 Power BI Desktop 版本的存储模式及其与复合模型的相关性有一些限制：SAP HANA 和 SAP Business Warehouse 的实时连接（多维）源无法用于复合模型。

- 使用 DirectQuery 连接到这些多维源时，既无法同时连接到另一个 DirectQuery 源，也无法将它与导入的数据结合。

- 使用复合模型时，仍要遵守现有的 DirectQuery 使用限制。现在每个表都要遵循其中许多限制，具体视表的存储模式而定。例如，导入表上的计算列可以引用其他表，但是 DirectQuery 表上的计算列仍限制为只能引用同一表上的列。如果模型中的任何一个表都是 DirectQuery，则其他限制适用于整个模型。

以上就是关于「在 Power BI Desktop 中管理存储模式」的全部内容。感谢您的耐心阅读，更多 Power BI 学习资源，请持续关注优阅达大数据生态。