什么是数据虚拟化?

Release Date: 2022-12-05

数据虚拟化技术根据消费应用程序、流程、分析工具或业务用户的需求,实时或近乎实时地提供受信商业数据的简化、统一、整合视图。数据虚拟化技术在不复制数据的情况下,将来自异类数据源、异类位置和异类格式的数据进行整合,从而创建了一个单一的虚拟数据层,这个数据层能够提供统一的数据服务,为多个应用和用户提供支持(参见图 1-1)。这样就可以更快地访问所有数据,减少复制和成本,增加变更的敏捷性。

图 1-1:数据虚拟化技术将来自异类数据源、异类位置和异类格式的数据进行整合,为多个应用和用户提供支持。

大部分数据整合解决方案都是将数据副本移到新的合并数据源,不过数据虚拟化技术却提供了一种完全不同的方法。数据虚拟技术没有移动数据,而是提供一个数据整合视图,让数据源保留在原来的位置。企业不必支付数据的移动和存放费用,但却可以获得数据整合带来的优势。

数据虚拟化可将跨不同物理系统分布的数据显示为本地数据库中的一组表格,即虚拟视图。Denodo 数据虚拟化平台可使用几乎任何类型的数据,包括 SQL、MDX、CML、Web 服务(REST 和 SOAP/XML)、平面文件以及 Hadoop 和 NoSQL 数据库中的非结构化数据,并将数据发布为 SQL 表或 Web 服务。当用户提交查询时,数据虚拟化平台会计算在远程异构系统上获取和联接数据的最优方式。平台随后查询关联数据,执行必要的联接和转换,并将结果交付给用户 - 所有作业均即时进行,用户并不知晓数据的真实位置或者访问及合并数据所需的机制。与后文所述的 ETL/EDW 数据整合方法相比,在以下几个方面存在明显不同。

首先,Denodo 数据虚拟化平台几乎可以使用任何类型的数据 - 结构化、半结构化和非结构化数据皆可由该平台使用及联合。其次,数据保留在原处。数据虚拟化并非数据整合策略,而是会将数据保留在其原始系统中,并响应用户查询来访问这些数据,以检索相应的结果集。Denodo 数据虚拟化平台可以利用先进的数据缓存策略来缓解各类性能问题。例如,缓存可用于补偿速度较慢的数据源(例如 Web 服务),或者尽可能降低对于负载敏感型生产数据库的影响。Denodo 的缓存策略能够对数据缓存进行完全控制,可针对特定场景做出微调。

数据虚拟化实际上不会将数据移动到采用通用企业数据模型的整合式数据仓库,因此可以更加轻松快捷地更改数据源(例如添加新数据源)或公开的数据(例如从现有视图创建扩展视图,而不中断使用现有数据视图的应用程序)。这种敏捷性和灵活性有助于缩短数据虚拟化项目的开发周期并增加迭代次数,同时更快地实现数据虚拟化项目的价值。

数据虚拟化适合何种用途?

数据虚拟化是一项出色的解决方案,很多时候也是一些场景的唯一选择,这些场景例如:

  • 需要组合及查询不同数据源的结构化、半结构化和非结构化数据。数据虚拟化平台可通过 SQL、Web 服务(REST 和 SOAP/XML)等标准接口呈现此类不同数据,由此这些数据使用应用程序的目标应用就可以摆脱复杂的数据访问及格式化过程。

  • 数据需要实时访问和交付。数据虚拟化还提供对底层数据的近实时(“适时”)访问。这对决策支持应用程序非常重要,例如那些管理库存水平或提供当日投资组合风险分析的应用程序。在这些应用程序中,不接受使用过时数据。此外,通过数据虚拟化层访问数据源意味着不存在数据重复和同步问题。数据源保持原状,并且仅将结果传输至使用数据的应用程序。这在受到严格监管的环境中非常重要,因为数据重复在该环境中可能被视为安全和隐私风险。

  • 要求公开业务数据实体时,需采用多种数据使用格式,以便将应用程序与数据源分离。

Denodo 平台还可支持数据转换和数据清洗,数据转换可能较为复杂,并且可能包含分层数据结构,例如 XML。此外,平台通过 API 支持与外部转换工具集成。Denodo 平台也可执行数据清洗和质量操作,例如进行数据扩充、通过映射表将数值归一化、借助数据编写支持隐私要求等等。由于 Denodo 平台具有可扩展性,因此可以创建自定义数据质量例程并将其添加到平台,还可使用平台 API 调用外部数据清洗和数据质量工具。


受益于数据虚拟化的应用程序

数据虚拟化带来的敏捷性和灵活性惠及各类应用程序 - 甚至是一些传统上归入 ETL/EDW 类型的应用程序。典型示例包括那些需要实时(或近实时)访问最新可用数据的应用程序。这些应用程序无法使用 ETL/EDW 系统提供的“上次可用”数据,它们需要的是当前数据,并且要求立即使用。这些应用程序示例包括库存控制、风险管理等运营决策支持系统。

应用程序如果受到需求不断变化和添加新数据源(包括通常不由传统数据工具处理的非结构化数据源)的影响,同样十分适合进行数据虚拟化。数据虚拟化平台具有灵活性和敏捷性,因而可轻松连接到各种类型的新数据源,并将这些新来源合并至现有数据视图中,从而实现快速迭代过程,使开发团队能够迅速响应来自业务部门的新数据需求。以往专门用于数据仓库部署的商业智能和分析应用程序亦可使用数据虚拟化来扩展待分析的数据类型,纳入数据仓库通常不支持的非结构化数据源。例如提取网络上的社交媒体数据,通过分析网红行为来了解使用者购买模式,进而将正常交易数据(购买)与提取自例如Twitter 信息流或 Facebook 帖子的网红数据或受影响数据相结合。

最后,数据虚拟化适用于需要访问企业数据源的新 Web 和移动应用程序。这些应用程序通常需要与底层数据模式和SQL 查询等传统访问方法隔离开来。尤其是移动应用程序更有可能使用 REST Web 服务来访问企业数据存储中的任何数据,并能借助数据虚拟化平台公开底层数据,因为 REST Web 服务使它们更适合较新的 Web 和移动应用程序。


“必须”实施数据虚拟化的典型项目包括:

  • 构建逻辑数据仓库

这类项目可以扩充和增强现有数据仓库部署,方法为增加现有数据仓库的新数据源,或是联合多个数据仓库;也可以从现有数据源创建“虚拟”(或逻辑)数据仓库,省去创建物理数据仓库所需的时间和费用。无论是扩充现有数据仓库部署还是构建逻辑数据仓库,在这两种场景中,数据虚拟化都是解决方案的关键部分,用于以易用格式为相关应用程序连接、组合及交付数据。

  • 大数据计划

大数据计划如今已经无处不在 - 事实上几乎可以这么说,贵组织如果未对大数据进行投资,在竞争中掉队就在所难免。但是,大数据不能也不应独立于其余的数据架构而存在。数据集整合完毕后,会通过映射/归约引擎(使用 Hadoop、Amazon EMR、Cloudera 等)运行,接下来要怎么做?如何获取这些结果,并将其与驻留在数据库、数据仓库和企业应用程序中的“主流”数据进行集成?这就是数据虚拟化的作用所在,借此,您可以将这些数据与提取自 CRM、DSR、数据仓库等的信息进行集成。不仅如此,数据虚拟化还可以引入大数据,并将其与非结构化数据源(例如 Twitter、Facebook 等社交媒体、Web 日志等)相结合。如果不具备这种对来自 Hadoop 及其他大数据系统的数据予以整合的能力,最终还是会产生数据孤岛 - 业务人员和数据科学家各自为政,导致公司无法充分释放大数据的全部潜能。

  • 实用的主数据管理

主数据管理项目错综复杂且成本高昂,许多项目因为好高骛远而无法实现预期价值,为整个数据基础架构环境带来过多变数和不确定性。主数据管理供应商开始转向“注册表”主数据管理解决方案而非更传统的存储库式主数据管理解决方案(在中央主数据管理存储库中复制和清洗数据),试图借此克服这些缺陷。不过,无论是否使用主数据管理工具,数据虚拟化都可以为所有主数据管理项目带来灵活性,并缩短价值实现时间。

对于不使用主数据管理工具的项目,数据虚拟化层支持从相关源系统提取“主数据”,从而创建虚拟主数据管理存储库(例如从多个来源创建客户的综合主视图)。数据使用应用程序随后可使用这些虚拟主数据来提供数据实体(例如客户)的单一一致视图。另外值得注意的是,数据虚拟化平台可以快速适应新的“主”数据源。

举例来说,如果您发现客户联系人的 CRM 数据已过时,则可以使用数据虚拟化平台访问新的数据源(例如社交媒体),以刷新来自这个新来源的虚拟主数据。(当然,如果需要更新其他数据源的数据,您可以将这些数据反馈给其他数据源)。或者,如果您已经配备主数据管理解决方案,则可以使用数据虚拟化层来访问其他数据源(例如来自社交媒体和 Web 的非结构化数据),从而扩展和丰富主数据管理解决方案的数据。

  • 企业信息治理计划

信息治理对于组织越来越重要,当存在相应法规用于控制私密和机密数据的访问与使用时,这种重要性更为明显。组织及人员如发生违规,可能会遭到相当严厉的处罚。但是,有效信息治理的关键是了解哪些人在访问底层数据以及他们如何使用这些数据。缺少这些基础知识,就无法对信息进行治理和控制,如果用户和应用程序直接访问数据源,那么确定哪些人有权访问数据,以及何时、如何使用数据,往往会是一项艰巨的任务。

数据虚拟化平台充当数据源和使用者之间的抽象层。数据使用者直连至数据虚拟化平台而不是数据源,这可为监测和实施数据访问策略提供单点控制。借助这些策略,您可以控制访问特定数据的人员、他们的访问方式和时间(例如在办公时间从办公地点访问),以及他们使用数据的方式。数据虚拟化平台还允许您针对不同用户或用户角色配置相同数据的不同视图,只需要禁止访问某些数据元素或编写部分数据(例如社保号码除最后四位之外的所有数字)就可以实现这一点。由于数据虚拟化层为底层数据源的访问监测和管理提供单点控制,组织得以更轻松地实施信息治理计划,使其符合行业法规。

数据虚拟化平台另外还具备多项优势,例如数据沿袭报告,可在使用端出现错误或其他问题时轻松确定信息源。对信息进行追本溯源,并查看信息在数据源和使用者之间经历的修改或操作过程,做到这一点难能可贵。数据虚拟化平台还可以提供这种沿袭的反向视图,显示数据从来源到使用者之间出现使用活动的位置。在规划数据源更改时,这项功能对于影响分析非常重要。数据源更改会影响的数据使用应用程序在此一览无余,因而可以针对这些影响有的放矢地制定计划。

总体而言,数据虚拟化可用于多种场景,因其普适性和诸多优势而成为各类企业数据架构内的关键组件。


更多相关信息,请访问专题页: Denodo介绍