内容:

从节点故障中恢复

  • 版本 :2022.1 及更高版本

如果其中一个服务器节点出现问题,并且您的其他节点上有冗余进程,Tableau Server 可以继续运行。在节点发生故障后,您的用户可以继续登录并查看和使用其内容,但他们可能会因节点故障而遇到性能下降的情况。此外,如果坏节点正在运行不再冗余的进程,则服务器发生灾难性故障的风险更大。这意味着您应该注意删除坏节点并尽快替换它。如果节点由于可在相对较短的时间内恢复的原因(例如,可以更正的硬件故障)而发生故障,则应首先尝试在不使用以下过程的情况下使节点恢复。

注意:如果出现故障的节点是您的初始节点,则对 Tableau Server 安装有更大的影响。有关如何从初始节点故障中恢复的详细信息,请参阅从初始节点故障中恢复

一般要求

Tableau Server 的 2020.1 版本已更新,具有改进的恢复功能。本主题中的过程是为 Tableau Server 2020.1 编写的。

如果您尝试从早期版本的 Tableau Server 恢复出现故障的节点,则必须执行该版本的过程。要查看 Tableau 联机帮助的存档版本,请参阅Tableau 帮助(链接将在新窗口中打开).

  • 至少有一个正常运行的节点,其上有文件存储的实例。

  • 至少有一个正常运行的节点,上面有一个存储库。

  • 至少有一个正常运行的节点,其上带有客户端文件服务 (CFS)。

注意:此操作包括您可能需要使用 TSM 命令行执行的步骤。要使用 TSM CLI,您需要管理员对安装中某个节点上的命令行具有访问权限,并且需要 TSM 管理员凭据才能运行 TSM 命令。

删除故障节点

要从 Tableau Server 群集中删除出现故障的节点,请执行以下操作:

  1. 识别故障节点:

    tsm status -v

    故障节点的状态为“错误”,进程将显示为不可用。节点 ID 列为“节点node3

    node3: WIN-OO915SFASVH
    						Status: ERROR
    					'Tableau Server Gateway 0' status is unavailable.
  2. 停止 Tableau Server。

    此过程的其余部分包括一些带有该选项的命令。使用该选项运行命令时,该命令将在不考虑指定节点的状态的情况下运行。要使用 ,请指定失败的节点:--ignore-node-status--ignore-node-status--ignore-node-status

    tsm stop --ignore-node-status

    例如,如果 node3 出现故障,请按如下方式运行该命令:

    tsm stop --ignore-node-status node3
  3. 确定节点上运行的任何关键进程:

    • 如果故障节点正在运行消息传递服务,则需要从故障节点中删除该服务,并将其添加到新节点。

      从故障节点中删除它:

      tsm topology set-process -pr activemqserver -n <nodeID> -c 0

      将其添加到新节点:

      tsm topology set-process -pr activemqserver -n <nodeID> -c 1
    • If the failed node was running the Coordination Service, you need to deploy a new ensemble before you can remove the node:

      tsm topology deploy-coordination-service -n <good_nodeID> --ignore-node-status <failed_nodeID>
    • If the failed node was running the only instance of Client File Service (CFS), you need to configure a new instance of CFS on a working node. We recommend that you configure CFS on every node that is running the Coordination Service. For detail steps, see Configure Client File Service .

    • If the failed node was running File Store, you need to force-decommission File Store and remove it before you can remove the node.

      tsm topology filestore decommission -n <nodeID> --delete-filestore

      Apply pending changes (use option if you had a three node cluster and a single Coordination Service instance):--ignore-warnings

      tsm pending-changes apply --ignore-warnings --ignore-node-status <nodeID>
  4. If the cluster was a three-node cluster and there are repositories on the remaining working nodes, you need to either remove one repository, or add a new node. This is because you are limited to a single instance of the repository when you have fewer than three nodes.

    To remove one repository:

    tsm topology set-process -n <nodeID> -pr pgsql -c 0
  5. Run the command to remove the failed node. This adds the change to the pending changes list:

    tsm topology remove-nodes -n <nodeID>
  6. Verify the node removal is pending:

    tsm pending-changes list
  7. 应用挂起的更改以删除节点:

    tsm pending-changes apply
  8. 启动 Tableau Server:

    tsm start
  9. 在新节点上安装 Tableau Server,并使用旧的故障节点一直在运行的进程配置该节点。

  10. 在全新计算机上,或在完全删除 Tableau 后的原始计算机上,使用原始安装程序和从初始节点生成的引导文件安装 Tableau。有关如何执行此操作的详细信息,请参阅安装和配置其他节点

    最佳做法是配置原始节点发生故障时丢失的任何进程,以确保群集是完全冗余的。

  11. 一旦节点启动并按所需方式运行,您还应该重新部署新的协调服务整体。有关详细信息,请参 阅部署协调服务整体 。

  12. 最后,如果尚未执行此操作,请将 CFS 实例添加到运行协调服务的每个节点。有关详细信息,请参阅配置客户端文件服务

返回页首