All 基础入门

Alteryx 微课堂 | 第7课:使用关联混合数据

published: 2023-08-25

▶ 本节课我们一起来学习:使用关联混合数据,了解如何轻松地将具有相似信息的数据源合并到单个流中进行分析。本课视频将解释如何使用联合工具将信息快速组合到单个数据流中,还将探讨配置选项及其对数据的影响。在开始学习之前,建议你点击“阅读原文”下载最新版 Alteryx 哦~

为便于大家更好地跟随操作,接下来,我把视频的内容用图文形式进行拆解。

一、混合数据与联合

你的分析可能需要将包含相同类型数据值的许多源组合到单个数据流中。简单来说,联合通过根据匹配的列名、列位置或手动对齐将传入的数据流堆叠在一起,从而垂直扩展数据流。这不仅可以防止你单独处理每个数据源和重复分析过程,而且还允许你开发动态工作流,将流程应用于你创建的数据集!

本节课的栗子是三个输入数据集包含纽约市调查的树木数据。2016 年、2017 年和 2018 年种植的树木的类似信息存储在不同的文件中,每年一个。

但是,对于想要执行的分析,将这些数据集组合起来并将数据作为单个数据流进行分析是有意义的。使用联合工具创建这个新的扩展数据流。首先,从收藏夹工具调色板中拖动联合工具并将其放到画布上。

二、联合工具的锚

联合工具有两个锚,一个输入锚和一个输出锚。然而,联合工具的输入锚不同于 Designer 中的许多其他工具。它的输入锚由多个箭头组成,表明该工具可以接受多个传入数据流。

连接到联合工具的第一个输入确定联合工具输出中使用的输出列名和数据类型。因为对列名和数据类型的更改已经应用于包含 2016 年种植的树的数据的输入。

使用选择工具,此数据流将作为所有连接输入的模板。将选择工具的输出锚点连接到联合工具的输入锚点。

三、连接字符串

连接字符串按照连接到联合工具的顺序编号。要清洗通过每个连接字符串传递的数据,重命名连接字符串以反映数据的来源。双击连接字符串#1。在配置窗口中,删除当前名称并输入“2016”以重命名连接字符串。双击连接字符串#2,在配置窗口中将连接字符串的名称更改为“2017”。双击连接字符串#3,在配置窗口中将其重命名为“2018”。

四、关联工具配置选项

关联工具可以通过以下三种方式之一进行垂直对齐:列名、列位置和手动对齐。单击配置选项以了解更多信息。

1、按列名

按列名组合数据时,具有相同名称的列中的值垂直堆叠。在使用此方法之前,彻底调查输入是很重要的,这样才不会错误地将表示相同数据但位于相同命名列中的值混合在一起。按列名对齐数据是关联工具的默认配置。

2、按列位置

当根据列位置组合数据时,所有输入的第一列中的值将相互叠加。第二列中的值将与所有输入的第二列中的值组合,依此类推。在这种情况下,重要的是输入中的列的顺序在进入关联工具之前匹配。

3、手动

你可能会发现,用于自动对齐数据值的列名和位置都不可靠。手动配置允许你根据对数据的了解操作数据,使其正确对齐。

五、输出公共子集

如果需要只输出所有输入中出现的列,请将关联工具配置为输入列的“输出公共子集”。虽然这种配置可能会删除对下游分析很重要的数据列,但它还可以减少后续工作流程中对额外数据清理和准备的需求。

六、按特定顺序输出

默认情况下,输出数据值将按照连接到关联工具的顺序堆叠:2016 年、2017 年和 2018 年。但是,如果你希望看到来自关联工具的每个连接输入的数据以特定的顺序堆叠在输出上,例如在数据集顶部最近种植的树,那么你可以选中复选框以选择特定的输出顺序。


以上就是关于「使用关联混合数据」的全部内容。感谢观看本视频,更多 Alteryx 学习资源,请持续关注 Alteryx 社区。