重试异步函数

本文档介绍如何请求异步(非 HTTPS)后台函数在失败时重试。

重试的语义

对于事件来源发出的每个事件,Cloud Functions 保证至少执行一次事件驱动型函数。但是,默认情况下,如果函数调用因错误而终止,则该函数不会被再次调用,且相应事件将被丢弃。当您针对事件驱动型函数启用重试时,Cloud Functions 将重试失败的函数调用,直到该函数调用成功或重试期限到期。对于第 2 代函数,重试期限会在 24 小时后到期。对于第 1 代函数,重试期限会在 7 天后到期。新创建的事件驱动型函数将采用指数退避算法策略进行重试,最短退避时间为 10 秒,最长退避时间为 600 秒(即 10 分钟)。此政策会在您首次部署一个新函数时应用于该函数。它不会追溯应用于此版本说明中描述的更改生效之前首次部署的现有函数,即使您重新部署这些函数也是如此。

如果没有为函数启用重试(默认设置),则函数始终报告其成功执行,并且 200 OK 响应代码可能出现在其日志中。即使函数出现错误,也是这种情况。为了能够在函数出现错误时弄清楚状况,请务必适当地报告错误

为什么事件驱动型函数会执行失败

在极少数情况下,函数可能会由于内部错误而提早退出,并且默认情况下函数可能会自动重试,也可能不会自动重试。

更常见的情况是,事件驱动型函数可能由于函数代码本身抛出错误而无法成功完成。可能导致发生这种情况的一些原因如下:

  • 函数包含 bug,且运行时抛出异常。
  • 函数无法访问服务端点,或者在尝试访问端点时超时。
  • 函数本身有意抛出异常(例如,某个参数验证失败)。
  • 以 Node.js 编写的函数返回遭拒的 promise 或将非 null 值传递给回调函数。

在上述任何情况下,函数默认都会停止执行,而事件会遭舍弃。如果要在出错时重试函数,可通过设置“失败时重试”属性来更改默认的重试政策。这会导致事件在多达数天的时间里不断重试,直到函数成功完成。

启用和停用重试

使用 GCP Console

如需在 GCP 控制台中启用或停用重试,请按如下步骤操作:

  1. 在 Cloud Platform Console 中,转到 Cloud Functions“概览”页面

  2. 点击创建函数。或者,点击现有函数以转至其详情页面,然后点击修改

  3. 填写函数的必填字段。

  4. 确保触发器字段设置为事件驱动型函数触发器类型,例如 Cloud Pub/Sub 或 Cloud Storage。

  5. 点击更多,展开高级设置。

  6. 选中或取消选中标有失败时重试的复选框。

在函数代码中

借助 Cloud Functions for Firebase,您可以在函数的代码中启用重试。如需为后台函数(如 functions.foo.onBar(myHandler);)执行此操作,请使用 runWith 并配置失败政策:

functions.runWith({failurePolicy: true}).foo.onBar(myHandler);

按所示方式设置 true 可将函数配置为在失败时重试。

最佳实践

本部分介绍有关如何利用重试的最佳实践。

利用重试来应对暂时性错误

由于函数会一直重试,直到成功执行为止,因此在启用重试之前应进行彻底的测试,以从代码中清除 bug 之类的永久性错误。重试最适合用于应对通过重试可以解决的间歇性/暂时性故障,比如不稳定的服务端点或超时。

设置结束条件以避免无限重试循环

在启用重试时,您应防止函数陷入连续循环。您可以在函数开始处理之前添加明确定义的结束条件。请注意,此方法仅在您的函数成功启动并且能够评估结束条件时才有效。

一种简单而有效的方法是舍弃时间戳早于特定时间的事件。在发生永久性故障或持续时间长于预期的故障时,这样可以保证函数执行次数不会太多。

例如,以下代码段会舍弃超过 10 秒前发生的所有事件:

const eventAgeMs = Date.now() - Date.parse(event.timestamp);
const eventMaxAgeMs = 10000;
if (eventAgeMs > eventMaxAgeMs) {
  console.log(`Dropping event ${event} with age[ms]: ${eventAgeMs}`);
  callback();
  return;
}

catch 与 Promise 结合使用

如果您的函数已启用重试功能,任何未处理的错误都将触发重试。 请确保您的代码能够捕获所有不应导致重试的错误。

以下是一段代码示例:

return doFooAsync().catch((err) => {
    if (isFatal(err)) {
        console.error(`Fatal error ${err}`);
    }
    return Promise.reject(err);
});

使可重试的事件驱动型函数具有幂等性

可重试的事件驱动型函数必须是幂等函数。下面是一些有关如何使此类函数具有幂等性的一般指导原则:

  • 许多外部 API(如 Stripe)允许提供幂等键作为参数。如果您在使用此类 API,应将事件 ID 作为幂等键。
  • 幂等性与“至少一次”机制非常契合,因为它能确保重试的安全性。通常情况下,幂等性对于重试来说是不可或缺的。
  • 确保代码具有内在的幂等性。例如:
    • 确保即使发生多次变更 (mutation),执行结果也不会改变。
    • 在事务中,先查询数据库状态再更改状态。
    • 确保所有副作用本身也具有幂等性。
  • 在函数之外强制执行事务检查(不依赖代码)。 例如,在某个位置留存状态信息,并记录已处理事件的 ID。
  • 处理重复的带外函数调用。例如,设置一个单独的清理进程,在发生重复函数调用后执行清理。

配置重试政策

根据您的 Cloud Functions 函数的具体需求,您可能需要直接配置重试政策。这样,您就可以进行以下一项或多项设置:

  • 将重试期限由 7 天缩短至最短 10 分钟。
  • 更改指数退避算法重试策略的最短和最长退避时间。
  • 更改重试策略以立即重试。
  • 配置死信主题
  • 设置传送尝试次数上限和下限。

如需配置重试政策,请执行以下操作:

  1. 编写 HTTP 函数。
  2. 使用 Pub/Sub API 创建 Pub/Sub 订阅,将函数的网址指定为目标。

如需详细了解如何直接配置 Pub/Sub,请参阅 Pub/Sub 文档中的失败处理部分