Kontingente verstehen und verwalten

Für Vertex AI in Firebase sind zwei verschiedene APIs erforderlich (jede mit eigenem Kontingent): die Vertex AI API und die Vertex AI in Firebase API.

Jede dieser APIs hat ein Kontingent, das in Anfragen pro Minute (RPM) gemessen wird. Das gilt insbesondere für Anfragen vom Typ „Inhalte generieren“ (sowohl mit als auch ohne Streaming). Die Vertex AI API hat auch ein Kontingent für Eingabetokens pro Minute.

Auf dieser Seite wird Folgendes beschrieben:

Allgemeine Informationen zu Kontingenten finden Sie in der Google Cloud-Dokumentation.

Informationen zu den Kontingenten für die einzelnen APIs

Das Kontingent jeder API wird etwas anders gemessen, sodass sie für unterschiedliche Zwecke verwendet werden kann.

Informationen zu den API-Kontingenten von Vertex AI

Die API-Kontingente von Vertex AI basieren auf „Anfragen zum Generieren von Inhalten“ pro Modell, Region und Minute.

Hier sind einige wichtige Details zu diesen Kontingenten (insbesondere zu Anfragen pro Minute und Eingabetokens pro Minute):

  • Sie gelten auf Projektebene und werden für alle Anwendungen und IP-Adressen freigegeben, die dieses Firebase-Projekt verwenden.

  • Sie gelten für alle Aufrufe der Vertex AI Gemini API, unabhängig davon, ob die Vertex AI in Firebase-Client-SDKs, die Vertex AI-Server-SDKs, Firebase Genkit, die Gemini-Firebase Extensions, REST-Aufrufe, Vertex AI Studio oder andere API-Clients verwendet werden.

  • Sie gelten für ein Basismodell und alle Versionen, Kennungen und abgestimmten Versionen dieses Modells. Hier sind einige Beispiele:

    • Eine Anfrage an gemini-1.0-pro und eine Anfrage an gemini-1.0-pro-001 werden als zwei Anfragen auf das RPM-Kontingent des Basismodells gemini-1.0 pro angerechnet.

    • Eine Anfrage an gemini-1.0-pro-001 und eine Anfrage an ein abgestimmtes Modell, das auf gemini-1.0-pro-001 basiert, werden als zwei Anfragen auf das RPM-Kontingent des Basismodells gemini-1.0-pro angerechnet.

  • Die Standardkontingente für jedes Modell und jede Region finden Sie in der Google Cloud-Dokumentation.

Sie können die Kontingente dieser API im Grunde als Gesamtkontingente für alle Ihre Nutzer betrachten, die die KI-Funktionen in Ihrer App verwenden, die auf einem bestimmten Modell und in einer bestimmten Region basieren.

Diese Quoten müssen hoch genug sein, um die Gesamtzahl der Endnutzer in einer bestimmten Region abzudecken, die auf Ihre KI-Funktionen zugreifen könnten, die auf einem bestimmten Modell basieren. Da es sich um Kontingente pro Minute handelt, ist es relativ unwahrscheinlich, dass alle Nutzer in einer Region gleichzeitig dieselben Funktionen verwenden und diese Kontingente aufbrauchen. Jede App ist jedoch anders. Passen Sie diese Kontingente daher entsprechend an.

Vertex AI in Firebase API-Kontingent

Das Vertex AI in Firebase API-Kontingent basiert auf „Inhaltsanfragen generieren“ pro Nutzer, Region und Minute.

Hier sind einige wichtige Details zu diesem Kontingent (insbesondere Anfragen pro Minute):

  • Sie gilt auf Projektebene und für alle Anwendungen und IP-Adressen, die dieses Firebase-Projekt verwenden.

  • Sie gilt für alle Aufrufe, die speziell über ein Vertex AI in Firebase-SDK erfolgen.

  • Das Standardkontingent beträgt 100 RPM pro Nutzer.
    Beachten Sie, dass Sie die Kontingentlimits für die Vertex AI API beachten müssen, insbesondere wenn sie unter 100 RPM liegen.

Sie können das Kontingent dieser API als Kontingent „pro Nutzer“ für die KI-Funktionen betrachten, die auf Vertex AI in Firebase basieren.

Dieses Kontingent muss hoch genug sein, um einen einzelnen Nutzer zu unterstützen, der auf die KI-Funktionen zugreift, die auf Vertex AI in Firebase basieren. Da diese API als Gateway zur Vertex AI API dient, können Sie mit dem Vertex AI in Firebase API-Kontingent dafür sorgen, dass kein einzelner Nutzer Ihr Vertex AI API-Kontingent aufbraucht, das für alle Ihre Nutzer gemeinsam gedacht ist.

Kontingente für jede API aufrufen

Sie können die Kontingente für jede API in der Google Cloud Console aufrufen.

  1. Rufen Sie in der Google Cloud Console die Seite der gewünschten API auf: Vertex AI API oder Vertex AI in Firebase API.

  2. Klicken Sie auf Verwalten.

  3. Klicken Sie weiter unten auf der Seite auf den Tab Kontingente und Seite zu den Systemlimits.

  4. Filtern Sie die Tabelle, um die gewünschten Kontingente zu sehen.

    Wenn Sie einen Dimension-Filter erstellen möchten, müssen Sie das Filtertool verwenden und nicht einfach die Werte in den folgenden Beispielen kopieren und einfügen.

    • Für die Vertex AI API:Geben Sie die Funktion (Anfragen zum Generieren von Inhalten), den Modellnamen und die Region an.

      Wenn Sie beispielsweise die Quoten für das Generieren von Inhaltsanfragen mit Gemini 1.5 Flash in einer der unterstützten EU-Regionen aufrufen möchten, sieht Ihr Filter so aus:
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • Für die Vertex AI in Firebase API:Geben Sie die Funktion (Anfragen zum Generieren von Inhalten) und die Region an.

      Wenn Sie beispielsweise die pro Nutzer geltenden Kontingente für das Generieren von Inhaltsanfragen in einer der unterstützten asiatischen Regionen aufrufen möchten, sieht Ihr Filter so aus:
      Generate content requests + Dimension:region:asia

      Die Vertex AI in Firebase API-Kontingente basieren nicht auf einem bestimmten Modell. Außerdem gilt die Zeile „Kontingent für (default)“ nicht für Vertex AI in Firebase.

Kontingent bearbeiten oder Kontingenterhöhung beantragen

Bevor Sie mit der Produktion fortfahren oder Fehlermeldungen des Typs 429 „Kontingent überschritten“ erhalten, müssen Sie möglicherweise Ihr Kontingent bearbeiten oder eine Kontingenterhöhung anfordern. Sie müssen das Kontingent jeder API entsprechend anpassen. Weitere Informationen dazu finden Sie weiter oben auf dieser Seite unter Kontingente für die einzelnen APIs.

Zum Bearbeiten eines Kontingents benötigen Sie die Berechtigung serviceusage.quotas.update, die standardmäßig in der Rolle „Inhaber“ und „Bearbeiter“ enthalten ist.

So bearbeiten Sie Ihr Kontingent oder beantragen eine Kontingenterhöhung:

  1. Folgen Sie der Anleitung im vorherigen Abschnitt, um die Kontingente der einzelnen APIs aufzurufen.

  2. Klicken Sie das Kästchen links neben jedem gewünschten Kontingent an.

  3. Klicken Sie am Ende der Zeile mit dem Kontingent auf das Dreipunkt-Menü und wählen Sie Kontingent bearbeiten aus.

  4. Führen Sie im Formular Kontingentänderungen die folgenden Schritte aus:

    1. Geben Sie das erhöhte Kontingent im Feld Neuer Wert ein.

      Dieses Kontingent gilt auf Projektebene und wird von allen Anwendungen und IP-Adressen geteilt, die dieses Firebase-Projekt verwenden.

    2. Füllen Sie die zusätzlichen Felder im Formular aus und klicken Sie dann auf Fertig.

    3. Klicken Sie auf Anfrage senden.