什么是数据网格(Data Mesh)?

Release Date: 2022-12-05

数据网格(Data Mesh)是一种架构模式,用于在大型复杂组织中实现企业数据平台。它有助于扩展分析的采用范围,使其超越单个平台和单个实施团队。


背景

对分析的需求并不新鲜。组织总是需要分析业务绩效,自从引入计算机以来,就一直使用计算机来分析业务绩效。大约在 20 世纪 80 年代,组织开始通过使用专门用于决策支持的数据库来构建数据仓库解决方案。这些解决方案长期以来为组织提供了良好的服务。

然而,随着业务的变化以及生成的数据越来越多样化,使用关系数据库的数据仓库解决方案可能并不总是最佳解决方案。在 2000 年代,大数据作为一个通用术语被引入。快速采用了新的解决方案,可以分析以极高速度生成的大量不同数据。这包括数据湖和分析大量数据的横向扩展解决方案等技术。

近年来,许多组织成功地使用了现代体系结构和分析模式,这些模式将数据仓库技术和最新的大数据技术相结合。

然而,一些组织在使用此模式部署分析解决方案时会遇到问题。这些解决方案通常仍作为整体解决方案实施,其中一个团队是平台提供商,另一个团队是进行数据集成的团队。从团队设置的角度来看,这适用于较小的组织和高度集中的组织。然而,仅使用一个团队通常会在大型组织中造成瓶颈。这一瓶颈导致了大量积压工作,组织中的一些部门不得不等待数据集成服务和分析解决方案。

随着组织采用现代数据科学解决方案,这种模式变得越来越普遍。与过去的传统商业智能解决方案相比,许多数据科学解决方案需要更多的数据。

最近转向使用微服务作为应用程序开发模式是围绕数据集成的长期积压的另一个驱动因素,因为它增加了数据源的数量。

在大型组织中,让一个团队在一个平台上处理所有数据摄取也可能会有问题。一个团队很少有针对每个数据源的专家。从业务角度来看,大多数组织都是分散和分布的。不同的业务部门和部门处理不同的操作部分,因此数据专家通常分布在各个部门。

为了解决这些问题,几年前引入了一种称为数据网格的新体系结构模式。数据网格的目标是让分布式团队以分散和灵活的方式处理和共享信息。

数据网格是一种技术模式,也需要组织变革。数据网格方法的好处是通过实施发布和使用数据产品的多学科团队来实现的。

以下概念是理解数据网格体系结构的基础:


》数据域

  • 数据产品

  • 自助服务平台

  • 联合治理

  • 数据域

数据域是数据网格的基础。数据域的概念来自领域驱动的开发,这是一种在软件开发中经常用来建模复杂软件解决方案的范式。在数据网格中,数据域是定义企业数据周围边界的一种方法。域可能因组织而异,在某些情况下,您可以围绕组织定义域。在其他情况下,您可以选择基于业务流程或源系统对数据域进行建模。


》数据域有三个方面:

  • 您选择的边界使其成为长期所有权。它们存在了很长一段时间,并确定了所有者。

  • 领域应该符合现实,而不仅仅是理论概念。

  • 您的域需要具有原子完整性。如果区域之间没有关系,不要将它们组合在一个域中。

有关数据域以及如何定义它们的更多信息,请参阅什么是数据域?


》数据产品

数据产品是数据网格的另一个重要组成部分。数据产品旨在将产品思维带入数据世界。为了使您的数据产品获得成功,它需要为目标用户提供长期的业务价值。在数据网格中,数据产品涉及数据、代码资产、元数据和相关策略。数据产品可以作为API、报表、表或数据湖中的数据集交付。


成功的数据产品必须:

对于本节,如果您将其格式设置为:

  • 可用:您的产品必须有直接数据域之外的用户。

  • 价值:您的产品必须随着时间的推移保持价值。如果没有长期价值,就不会成功。

  • 可行:你的产品必须是可行的。如果你不能真正构建它,那么这个产品就不会成功。从数据可用性和技术角度来看,您的产品必须是可行的。

数据产品的代码资产包括生成数据产品的代码和交付数据产品的代码。它还包括用于创建产品和产品最终报告的管道。

有关使用数据网格的具体指导,请参阅什么是数据产品?


》自助服务平台

数据网格的核心是有一个平台,允许数据域自己构建数据产品。他们需要能够通过使用与其用户相关的工具和流程来定义其数据产品,而不需要对中央平台或中央平台团队有强烈的依赖性。在数据网格中,您拥有开发和管理自主产品的自主团队。

在与了解您的数据的业务用户进行分散和协调的同时,您还将有多面手在您的平台上工作。因此,您不能将需要专业知识才能操作的专业工具作为基于网格的平台的核心基础。


》联合治理

当您采用自助式分布式数据平台时,您必须更加重视治理。缺乏治理会导致跨数据域的竖井和数据重复。联合您的治理,因为了解治理需求的人存在于与域一致的团队和数据所有者中。

要创建联合治理,请围绕平台和数据需求实施自动化策略。使用高度自动化进行测试和监控。采用代码优先的实施策略,将标准、策略、数据产品和平台部署作为代码处理。


总结

数据网格是实现企业数据平台的有效方法,但它不是所有组织的最佳解决方案。数据网格需要能够独立工作的自治团队。它在需要将其分析采用范围扩展到单个平台和实施团队之外并拥有独立业务部门的大型复杂组织中效果最好。

使用数据网格时,在实施治理时要特别小心,以免创建竖井。始终将对数据的产品思考作为实施的核心,以确保成功。


更多相关信息,请访问专题页: Denodo介绍