Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Best Practices beim Senden von FCM-Nachrichten in großem Umfang

Ganz gleich, ob Sie eine neue App entwickeln oder bereits einen Dienst mit hohem Traffic betreiben – in diesem Leitfaden finden Sie Informationen und Empfehlungen dazu, wie Sie mit FCM reibungslos skalieren können. Mit diesen Konzepten und Praktiken können Sie negative Auswirkungen vermeiden, wenn Sie eine große Anzahl von Nachrichten senden müssen.

Wichtige Begriffe und Konzepte

Nachrichtenanfrage: Eine FCM-Nachrichtenanfrage, die synonym mit „Anfrage“, „Nachricht“ oder „Abfrage“ verwendet wird.

Anfragen pro Sekunde (RPS): Ein Messwert, der die Rate der eingehenden Anfragen an FCM beschreibt. Wird synonym mit „Abfragen pro Sekunde (QPS)“ verwendet.

Kontingent-Tokens, Token-Buckets und Nachfüllen: Wenn Sie Nachrichten über die FCM HTTP v1 API senden, wird für jede Anfrage in einem bestimmten Zeitraum ein zugewiesenes Kontingent-Token verbraucht. Dieses Fenster, das als Token Bucket bezeichnet wird, wird am Ende des Zeitfensters wieder aufgefüllt. Beispiel: Für die HTTP v1 API werden für jeden 1-Minuten-Token-Bucket 600.000 Kontingent-Tokens zugewiesen, die am Ende jedes 1-Minuten-Zeitraums wieder vollständig aufgefüllt werden.

Serverseitige Drosselung: Wenn das Trafficvolumen die Kapazität des FCM-Dienstes überschreitet, werden Anfragen, die die Bereitstellungskapazität überschreiten, abgelehnt, um den eingehenden Fluss zu begrenzen. 429-Fehlerantworten mit retry-after-Headern können zurückgegeben werden, um anzugeben, dass Sie einen bestimmten Zeitraum warten sollten, bevor Sie die Anfrage noch einmal versuchen.

Clientseitige Drosselung: Wenn Clients Anfragenfehler, hohe Latenz oder 429-Fehler feststellen, sollten sie den ausgehenden Datenfluss freiwillig drosseln, um eine Überlastung zu vermeiden.

Exponentieller Backoff: Fügen Sie beim Wiederholen von Fehlern exponentiell ansteigende Zeitverzögerungen hinzu. Beispiele: 1 s, 2 s, 4 s, 8 s, 16 s, 32 s usw.

Jittering: Anfragen werden nicht in exakten Intervallen wiederholt. Beim Jittering variieren Sie die Verzögerungen für Wiederholungsversuche durch einen Zufallsprozess, um sie gleichmäßig über die Zeit zu verteilen (z. B. 0,9 s, 2,3 s, 4,1 s, 8,5 s, 17,9 s, 34,7 s).

Verstärkung durch Wiederholungsversuche: Wenn fehlgeschlagene Anfragen ohne exponentiellen Backoff oder Jittering wiederholt werden, häufen sie sich oft an und erhöhen die laufende Trafficlast. Dadurch können Probleme mit der Überlastung des Traffics verstärkt werden.

Problem: Trafficspitzen

FCM verarbeitet Millionen von Anfragen pro Sekunde (Requests Per Second, RPS). Die größten Ursachen für systemische Überlastung, Latenzprobleme und Ausfälle sind Trafficspitzen.

Ein Liniendiagramm, in dem der Traffic in unregelmäßigen Abständen ansteigt.

Was sind Traffic-Spitzen?

Es gibt verschiedene Arten von Traffic-Spitzen.

Spitzen zu Beginn der Stunde: FCM empfängt in den ersten 30 Sekunden bis 2 Minuten jeder Stunde mehr als doppelt so viel Traffic. Ähnliche, wenn auch geringere Spitzen sind auch bei den Halb- und Viertelstundenmarken zu beobachten (Beispiele: 00:15, 00:30, 00:45).

Ein Liniendiagramm mit Trends für Spitzenwerte im Halbstunden- und Viertelstundenrhythmus.

Verstärkung durch Wiederholungsversuche:Wenn fehlgeschlagene oder abgelaufene Anfragen ohne exponentiellen Backoff wiederholt werden, kann dies zu wiederholten Trafficwellen zusätzlich zu bestehenden Trafficspitzen führen.

Ein Liniendiagramm, das zunehmende Spitzenmuster zeigt.

Abrupte Änderungen des Traffics: Wenn neuer Traffic an FCM weitergeleitet oder Traffic regionsübergreifend zu FCM verschoben wird, ohne dass Glättungsfaktoren wie ein schrittweiser Anstieg berücksichtigt werden, kann es zu Spitzen kommen.

Ein Liniendiagramm mit einem abrupten Anstieg.

Vorzeitige Nutzung von Kontingent-Tokens: Wenn alle Kontingent-Tokens zu Beginn von Kontingentzeiträumen aufgebraucht werden, anstatt die Anfragen gleichmäßig über die Kontingentzeiträume zu verteilen, entstehen Ein-/Aus-Schwankungen, die schwer und teuer auszugleichen sind.

Ein Liniendiagramm mit einem sehr scharfen Anstieg.

Besondere Ereignisse: Trafficspitzen an Feiertagen (Silvester) oder bei Sportveranstaltungen (FIFA-Weltmeisterschaft)

Ein Liniendiagramm mit mehreren wiederholten Spitzen.

Trafficspitzen durch „Abflachen der Kurve“ abmildern

In diesem Abschnitt werden Strategien beschrieben, mit denen sich Verkehrsspitzen nach Möglichkeit abmildern lassen.

FCM nur für geeignete Anwendungsfälle verwenden

Es gibt einige Anwendungsfälle, in denen die Verwendung von FCM zum Senden einer Benachrichtigung nicht erforderlich oder angemessen ist.

Für Benachrichtigungen zu Kalenderereignissen können Sie beispielsweise eine lokale Aufgabe in Ihrer App planen, um Benachrichtigungen zu den entsprechenden Zeiten anzuzeigen, anstatt sie von Ihrem App-Server zu senden. FCM-Nachrichten auf Kalendersynchronisierungen beschränken.

Spitzen vermeiden

Ein Anti-Pattern für die Skalierung besteht darin, FCM-Benachrichtigungen so schnell wie möglich zu senden, anstatt serverseitige Drosselung anzuwenden. Berücksichtigen Sie Folgendes:

Müssen alle Ihre Kunden dieselbe Benachrichtigung innerhalb von einer Minute erhalten? Würde ein 5-minütiges Zeitfenster für die Lieferung beispielsweise Ihren Geschäftsanforderungen entsprechen?
Können Ihre Kunden nach Priorität segmentiert werden, um die Spitzen auszugleichen?
Können Benachrichtigungen im Voraus geplant werden?

Nach Möglichkeit: Vermeiden Sie Strategien, die dazu führen, dass Ihr FCM-Sendekontingent sofort aufgebraucht wird, nur um das Muster zu wiederholen, sobald Ihr Token-Bucket wieder aufgefüllt ist. Dieses Zugriffsmuster führt zu Problemen mit dem Lastenausgleich für FCM und die zugehörigen Systeme. Steigern Sie den Traffic so schrittweise wie möglich. Die Anzahl der Anfragen pro Sekunde sollte mindestens innerhalb von 60 Sekunden von 0 auf den maximalen Wert ansteigen. Längere Zeitfenster sind für höhere RPS besser geeignet.

Traffic zu vollen Stunden vermeiden

Nach Möglichkeit: Senden Sie keine Nachrichten innerhalb von 2 Minuten vor oder nach den Zeitmarken :00, :15, :30 und :45.

Serverseitige Drosselung implementieren

Implementieren Sie serverseitige Drosselung, um den Trafficfluss zu FCM zu überwachen und zu verwalten.

Wiederholungsversuche verarbeiten

FCM ist zwar darauf ausgelegt, hochverfügbar zu sein, aber manchmal kommt es zu Zeitüberschreitungen oder Fehlern bei Anfragen. Die Gründe dafür sind zwar unterschiedlich, aber mit den folgenden Best Practices lässt sich das Verhalten bei Wiederholungsversuchen optimieren, um Nachrichten so schnell wie möglich zu senden und gleichzeitig die Auswirkungen auf die Überlastung des Traffics zu minimieren.

Zeitlimits

Legen Sie für Sendeanfragen vor dem Wiederholen eine Zeitüberschreitung von mindestens 10 Sekunden fest. Die meisten internen Remote Procedure Calls von FCM verwenden ein Zeitlimit von 10 Sekunden.

Fehler

Bei den Fehlern 400, 401, 403 und 404 wird der Vorgang abgebrochen und nicht wiederholt.
Bei 429-Fehlern: Wiederholen Sie den Vorgang, nachdem Sie die im Header „retry-after“ festgelegte Zeit gewartet haben. Wenn kein „retry-after“-Header festgelegt ist, wird standardmäßig ein Wert von 60 Sekunden verwendet.
Bei 500-Fehlern: Wiederholen Sie den Vorgang mit exponentiellem Backoff.

Exponentielle Backoffs

Um eine Verstärkung von Wiederholungsversuchen zu vermeiden, sollten Sie für das Wiederholen von Anfragen exponentiellen Backoff mit Jittering implementieren. Das Firebase Admin SDK implementiert beispielsweise exponentiellen Backoff.

Hier sind einige weitere empfohlene Einstellungen:

Mindestintervall: Wiederholen Sie eine fehlgeschlagene Anfrage nicht sofort mit FCM. Warten Sie mindestens 10 Sekunden, bevor Sie eine fehlgeschlagene Anfrage noch einmal senden.
Maximales Intervall: Legen Sie ein maximales Intervall für das Verwerfen von Anfragen fest, die nicht mehr rechtzeitig sind, anstatt sie unbegrenzt oft zu wiederholen.

Wenn eine Anfrage kontinuierlich mit exponentiellem Backoff wiederholt wird und nach 60 Minuten immer noch fehlschlägt, ist sie entweder fälschlicherweise als wiederholbarer Fehler kategorisiert oder es liegt ein Ausfall bei FCM vor, bei dem Wiederholungen die Situation unbeabsichtigt verschlimmern können.

Rollout- und Rollback-Pläne erstellen und schrittweise Änderungen vornehmen

Wenn Sie umfangreiche Änderungen am Traffic vornehmen, z. B. den Traffic zu FCM erhöhen oder den Traffic zwischen Regionen oder Netzwerken verschieben, schützen Sie Ihre Nutzer, Ihren Dienst und FCM, wenn Sie einen Plan für die Einführung/Rücknahme erstellen und schrittweise Änderungen vornehmen.

Ein Roll-out-Plan gleicht die Erwartungen der Stakeholder ab. In bestimmten Situationen (siehe unten) sollten Sie Ihren Einführungsplan vorab mit dem FCM-Team teilen, um Überraschungen zu vermeiden.
Mit einem Rollback-Plan können Sie Unvorhergesehenes berücksichtigen und Mechanismen vorbereiten, um sich schnell und sicher von unerwarteten Fehlern zu erholen.
Stufenweise Änderungen haben zwei Aspekte:
- Stufenweise Steigerung: Die Schritte sollten 1 % –> 5 % –> 10 % –> 25 % –> 50 % –> 75 % –> 100% oder feiner sein. Soak (Systemverhalten unter Last beobachten) für jeden Schritt für 1 Tag bis 1 Woche. So können Sie potenzielle Probleme vor dem nächsten Schritt erkennen.
- Stufenweise Steigerung des Traffics: Wenn Sie den Traffic in einzelnen Schritten steigern, sollten Sie ihn über einen Zeitraum von mindestens einer Stunde gleichmäßig verteilen. So kann die Load-Balancing-Infrastruktur von FCM Ihren neuen Traffic angemessen skalieren und gleichzeitig das Risiko von Hotspots und Überlastung minimieren.

Hier ist ein hypothetisches Szenario für die Migration von 500.000 RPS weltweit von der alten FCM HTTP API zur FCM HTTP v1 API:

Woche	Step	Strategie für die schrittweise Einführung
0	1% Steigerung	Steigern Sie die RPS für FCM HTTP v1 innerhalb einer Stunde von 0 auf 5.000.
1	5% Steigerung	Steigern Sie die RPS über 2 Stunden hinweg schrittweise von 5.000 auf 25.000.
2	10% Steigerung	Die RPS-Zahl sollte innerhalb von 2 Stunden von 25.000 auf 50.000 gesteigert werden.
3	25% Steigerung	Steigerung von 50.000 auf 125.000 RPS über 3 Stunden
4	50% Steigerung	Steigerung von 125.000 auf 250.000 RPS über 6 Stunden
5	75% Steigerung	Steigerung von 250.000 auf 375.000 RPS über 6 Stunden
6	100% Ramp-up	Steigerung von 375.000 auf 500.000 RPS über 6 Stunden

Beispiel für einen Rollback-Plan:

Wenn die Latenz des 95. Perzentils auf mehr als 500 ms ansteigt oder das Fehlerverhältnis in einem beliebigen Schritt über mehr als eine Stunde lang 1% überschreitet, verwenden Sie die dynamische Konfiguration, um sofort zum vorherigen Schritt zurückzukehren.
Führen Sie weiterhin Rollbacks zu früheren Schritten durch, bis Latenz und Fehlerrate wieder auf dem normalen Niveau sind.

Wann sollten Sie sich an FCM wenden?

Wenden Sie sich über den Firebase-Support an FCM, wenn einer der folgenden Fälle zutrifft:

Standardkontingente reichen für Ihren Anwendungsfall nicht mehr aus
Sie ändern Ihre Sendemuster innerhalb eines Zeitraums von drei Monaten in einem Umfang von 100.000 RPS weltweit oder 30.000 RPS kontinental.