什么构成了一个好的数据集?

  • 版本 :2022.1 及更高版本

了解如何使用 Tableau Desktop(或者生成示例或概念验证内容)的一个好方法是查找您感兴趣的数据集。当您有真正的问题要用数据回答时,分析的步骤会变得更加简单和有意义。

数据集的现实

在尝试查找企业认可的非官方数据的数据集时,有两个不可避免的事实。

找不到想要查找的内容。

  • 尽量避免对您所需的内容有过于具体的先入之见。

  • 对于可用于给定项目的内容保持灵活而开放的思想。

  • 有时,您需要的数据是付费的 — 请决定是否值得。

您将必须清理数据。

什么构成了一个好的数据集

好的数据集是适合于您的用途的数据集。只要满足这种需求,它就是一个好的数据集。但是,有一些注意事项可以帮助您清除不太可能适合您的用途的数据集。总体而言,请查找满足以下条件的数据集:

  1. 包含您需要的元素

  2. 是解聚的数据

  3. 至少有几个维度和几个度量

  4. 具有良好的元数据或数据字典

  5. 可使用(不是专有格式、没有过于凌乱或过于繁琐)

是什么让 Superstore 数据源很出色?

1.良好的数据集具有您所需的元素

如果要查找数据集来构建特定可视化项或显示特定功能,请确保数据集具有所需的字段类型。例如,地图的视觉效果很好,但需要地理数据。基本演示通常涉及对日期进行下钻查询,因此数据至少需要一个日期字段(并且需要比年份更精细才能显示下钻查询)。并非所有数据集都需要所有这些元素 — 了解您所需的内容,并且不要把时间浪费在缺少关键元素的数据集上。

用于分析的常见元素:

  • 日期

  • 地理数据

  • 分层数据

  • “有趣的”度量 - 量级的巨大变化或正负值

某些功能或可视化项类型可能需要数据的特定特征,例如:

  • 群集

  • 预测

  • 趋势线

  • 用户筛选器

  • 空间计算

  • 某些计算

  • 标靶图

  • 控制图

2.良好的数据集是解聚的(原始)数据

如果数据过于聚合,则无法进行太多分析。举例来说,如果您想查看人们在 Google 上搜索“南瓜香料”的趋势,但有年度数据,您只能看到高度概括的趋势。理想情况下,您希望得到每天的数据,这样您就可以看到当星巴克开始提供 #PSL 时的巨大峰值。

根据不同的分析,解聚的内容可能有所不同。请注意,由于隐私或实用性的原因,某些数据集永远不会比特定级别更精细。例如,您不太可能找到疟疾病例逐个报告的数据集,因此按区域划分的每月总数可能足够精细。

聚合和粒度

3.良好的数据集具有维度和度量

许多可视化项类型需要维度度量

  • 如果只有维度,则通常您只能进行计数、计算百分比或使用“记录数”字段操作。

  • 如果只有度量,则无法按任何内容分解值。您可以完全解聚数据,也可以使用整体 SUM 或 AVG 等。

这并不是说只有维度的数据集没有用处。人口统计数据是有大量维度的数据的示例,许多有关人口统计的分析都是基于计数或基于百分比的。但对于分析性较强的丰富数据集,您至少需要几个维度和度量。

维度和度量(离散和连续)

Tableau 创建的字段

4.良好的数据集具有元数据或数据字典

数据集只有在您知道数据是什么时才有用。在寻找好数据的过程中,没有什么比打开一个像这样的文件更让人沮丧的了:

全数字数据的电子表格视图

4 或 12 的来源是什么意思?“OTU0-OTU4”字段中有哪些信息?

一个好的数据集应该具有标记良好的字段和成员,或者有一个数据字典,这样您就可以自己重新标记数据。想想 Superstore — 它的字段和值是什么是显而易见的,比如“Category”(类别)和它的成员“Technology”(技术)、“Furniture”(家具)和“Office Supplies”(办公用品)。或者,对于上图中的微生物群数据集,有一个数据字典(链接在新窗口中打开)来解释了每个来源(4 是粪便,12 是胃)和每个 OTU 的分类(OTU3 是类噬菌体属的细菌)。

数据字典也可以称为元数据、指标、变量定义、词汇表或任意数量的其他内容。在一天结束时,数据字典提供有关列名称和列成员的信息。可通过多种方式将该信息引入数据源或可视化项,其中包括:

  • 重命名列,使其更易于理解(可在数据集本身或 Tableau 中完成此操作)。

  • 为字段成员重新指定别名(可在数据集本身或 Tableau 中完成此操作)。

  • 创建计算以添加数据字典信息。

  • 在 Tableau 中为字段加上注释(注释不会显示在已发布的可视化项上,只会显示在制作环境中)。

  • 使用数据字典作为另一个数据源,并将两个数据源合并。

丢失数据字典会使数据集变得毫无用处。如果要为数据集添加书签,请也为数据字典添加书签。如果要下载,请同时下载两者并将它们放在同一位置。

5.好的数据集是您可以使用的数据集

只要您能够理解数据集并且它具有所需的信息,即使很小的数据集也可以为分析提供强大的支持。较小的数据集也易于存储、共享和发布,并且可能具有良好的性能。

同样,即使您找到了满足您需要的“完美”数据集,如果需要花费不现实的努力来清理,那么它也不是完美的。知道何时远离于混乱的数据集非常重要。

例如,此数据集来自维基百科的一篇关于相对字母频率的文章。它开始为 84 行和 16 列(转置为 1,245 行和 3 列)。Excel 文件为 16KB。但是,借助某些组、集、计算和其他操作,它可实现强大的分析和有趣的视觉效果。

单击图像可下载工作簿。

重新标记数据

找到一个好的数据集后,通常需要对其进行重新标记它。重新标记数据对于为示例或概念验证创建假数据,或者使数据更具可读性都很有用。

重命名会改变该字段在 Tableau 中的显示方式,例如将“Sales”(销售额)重命名为“Pipeline Sales”(渠道销售额),或将“State”(州/省/市/自治区)重命名为“Province”(省)。

重新指定别名会更改字段成员的显示方式,例如为“Country”(国家/地区)字段中的值重新指定别名,使 CHN 变为中国,并使 RUS 变为俄罗斯。

  • 离散维度字段中的值称为成员。只能为成员重新指定别名。假设有一个表示温度的度量字段。如果不更改数据本身,则无法更改值“54°F”。但在“Country”(国家/地区)字段将成员“CHN”的别名重新指定为“中国”是相同的信息,只是用另一种方式标记。

重命名和重新指定别名几乎是一回事。Tableau 中的惯例是:为字段命名,并为成员指定别名。有关详细信息,请参见在“数据”窗格中组织和自定义字段在视图中创建别名以重命名成员

注意:重命名或重新指定别名只会更改在 Tableau Desktop 中的外观;不会将任何更改写回基础数据。

重新标记以制作假数据

重新标记现有数据集是使示例或概念验证内容更具吸引力的好方法。

  1. 使用简单的数据集(如 Superstore)来构建所需的内容(特定图表类型、显示某些功能等)

  2. 重命名相关字段、更改工具提示,或者更改文本方面以掩盖数据实际表示的内容。

重要信息:只有在信息明显是假的情况下才这样做。小心,人们不认为它是真实数据,并尝试使用它进行分析。例如,使用荒唐的名称或毫无意义的字段名,如颜色或动物。

重新指定别名以使数据更易于使用

将数据存储为数值而不是字符串值更有效,但数值编码可能会使数据更难理解。对于小型数据集,它可能不会对性能产生影响,所以优先考虑能够轻松理解数据。

重新指定别名的缺点您不再能够访问这些数值(这使得排序、分配颜色渐变等操作变得更加困难)。请考虑复制该字段并为副本重新指定别名。另外,Tableau 的计算可以很好地保存原始信息,同时使其更容易理解。

使用 CASE 函数重新指定别名

对于重新指定别名,计算可能很有助益。例如,CASE 函数允许您说,本质上,“当此字段的值为 A 时,请给我 X。当值为 B 时,请给我 Y”。

这里,CASE 函数查看 tornado 数据集中的 F-scale,并提供与每个数值相关的书面描述:

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

现在我们可以选择使用原始的“F-scale”字段 (0-5) 或可视化项中的“F-scale damage description”(F-scale 损害描述)字段。

寻找数据集时的技巧

注意:尝试确保可以回答“数据集中的行(也称为记录)代表什么?”问题如果您不能清楚地说明这一点,那么您可能无法很好地理解数据以便能够使用它,或者数据的结构不适合进行分析。

  • 跟踪数据的来源。

  • 将数据字典信息与数据本身一起保存。

  • 如果需要使内容保持最新,请避免使用过时的数据。查找:

    • 可更新的数据(库存、天气、定期发布的报告等)

    • 永恒的数据(各种动物的平均质量不会年复一年地变化)

    • 可通过人为更改为历史日期或未来日期来实现未来验证的数据

  • 尝试简单地用 Google 搜索一下您要找的东西,您可能会感到惊讶。

  • 如果需要准备的工作太多,不要害怕放弃数据集。

寻找数据的地方

可以在何处寻找数据?在非常多的地方都可以找到数据集。可通过这些选项着手了解相关信息。请注意,数据集的真实情况确实适用于这些站点 — 您现在可能找不到您的想法,并且很可能需要做一些清理,以便为分析做好数据准备。

免责声明:尽管我们尽最大努力确保外部网站的链接保持正确、最新并相关,但 Tableau 对于外部提供商所维护的页面的准确性或新鲜度不担负任何责任。在此处列出网站并是对任何内容或组织的认可。请与外部网站联系来获取其内容相关问题的答案。

Tableau Public(链接在新窗口中打开):Tableau Public 是适用于 Tableau 的数据集的一项令人惊叹的资源。搜索您感兴趣的主题的工作簿,浏览寻找灵感,然后下载工作簿来访问数据。或者查看精心制作的示例数据(链接在新窗口中打开)

维基百科表格 (链接在新窗口中打开):从维基百科表格中获取数据:复制并粘贴到电子表格中、复制并直接粘贴到 Tableau 中,或使用 Google 工作表和 IMPORTHTML 函数(链接在新窗口中打开)创建数据的 Google 电子表格。

Google 数据集搜索(链接在新窗口中打开):“一个整合在线数据集碎片世界的搜索引擎”。

Data is Plural(链接在新窗口中打开):订阅有关数据集的每周新闻稿,或浏览存档(链接在新窗口中打开)

Makeover Monday(链接在新窗口中打开):“每周一加入我们,使用给定的数据集,创建更好、更有效的可视化项,并帮助我们使信息更容易访问”。您可以看到其他人用相同的数据集做了什么,开始您的分析或给予灵感。使用 Twitter 上的 #makeovermonday(链接在新窗口中打开) 参与。

其他网站