All 基础入门

Alteryx 微课堂 | 第8课:过滤数据

published: 2023-09-22

▶ 本节课我们一起来学习:过滤数据,了解如何快速筛选数据以隔离符合条件的行,删除不需要的数据或将其拆分到自己的独立流中。在开始学习之前,建议你点击“阅读原文”下载最新版 Alteryx 哦~

为便于大家更好地跟随操作,接下来,我把视频的内容用图文形式进行拆解。

一、过滤数据

通过根据指定的条件快速隔离数据行,可以从数据中筛选行,从而加快分析速度。然后对数据行进行评估,并将其分成两个输出数据流:一个包含满足指定条件且为“True”的行,另一个包含不满足指定条件且为“False”的行。

从收藏工具调色板中拖动一个过滤器工具,并将其放到画布上。

二、配置过滤器工具

过滤器工具的配置支持两种类型的过滤器:基本过滤器和自定义过滤器。基本过滤器支持简单查询,以计算单个数据列中的一个条件。而自定义过滤器可以在多个数据列中使用多个条件测试更复杂的查询。

三、创建基本过滤器

基本过滤器由三部分组成:用于测试条件的列、操作符和要测试的条件。创建一个过滤器,以确定树木健康状况良好的行。使用下拉菜单选择包含树的健康状况信息的列:" health "。

1、操作符
下拉列表中可用的操作符类型取决于分配给要查询的列的数据类型。数字列将显示一个操作符列表,用于测试“大于”或“小于”等条件,而 DateTime 数据类型可以测试固定日期之前或之后的日期,如 2018 年 12 月 1 日或动态日期,如“昨天”。由于列“Health”被归类为字符串数据类型,因此可以应用于此列的操作符类型包括测试特定值、字母位置、子字符串,甚至是 null 和空单元格的存在。从下拉菜单中选择“=”操作符。
2、条件
测试一棵树的健康状况是否为“良好”。在文本框中手动输入“Good”。
3、运行工作流
在运行工作流之后,数据被分成两个流:一个包含相对于过滤器工具的查询为 True 的行,另一个包含为 False 的行。点击过滤器工具上的“T”和“F”输出锚点查看结果。

超过 160,000 行数据通过过滤器工具的 True 锚点,这意味着“Health”列中的值等于 Good。原始输入的其余行被评估为“False”,这意味着“Health”列中的值不等于 Good。

四、自定义过滤器

你还可以根据多个条件对行进行筛选,例如健康状况良好且至少 10 米高的树。要创建更复杂的查询,请在过滤器工具的配置中使用自定义过滤器表达式编辑器。选择单选按钮以启用自定义筛选器的表达式编辑器。

在过滤器工具中创建的任何基本过滤器也会在自定义过滤器中复制,因此第一个条件,即树状态良好,已经存在于表达式编辑器中。在下面的文本框中,输入树高大于等于 10 米的下一个条件:[Height] >= 10。

在过滤器工具的表达式编辑器中,单击“变量”按钮,然后从菜单中选择“高度”。

输入 equals 10(= 10) 来完成表达式。

五、编写一个多条件过滤器

现在,两个条件被指定为测试条件。然而,过滤器工具的配置需要的不仅仅是一个条件列表,过滤器工具必须知道这些条件应该如何相互测试。添加布尔运算符,如“And”或“OR”。

语句定义要求值的查询。使用“AND”要求这两个条件在同一行数据中必须为真:一棵树必须是健康且高大的。一个“或”要求只有一个条件为真。确定树木既健康又高大的行。在下面的文本框中,输入正确的运算符以完成表达式。

如果使用 OR,结果可能包括健康但矮小的树木,以及高大但健康状况不佳的树木。这个结果对于识别既健康又高大的树木是不正确的。

有了这两个条件,纽约市有 8 万多棵树被认定为健康状况良好,至少有 10 米高。不满足此标准的树可能是单独分析类型的候选,或者被排除在下游工作流开发之外。


以上就是关于「过滤数据」的全部内容。感谢观看本视频,更多 Alteryx 学习资源,请持续关注 Alteryx 社区。