Comprendre et gérer vos quotas

Vertex AI in Firebase nécessite deux API différentes (chacune avec son propre quota) : Vertex AI et Vertex AI in Firebase.

Chacune de ces API dispose d'un quota qui est mesuré en requêtes par minute (RPM), en particulier les requêtes de "génération de contenu" (en streaming et sans streaming). L'API Vertex AI applique également un quota de jetons d'entrée par minute.

Cette page décrit les éléments suivants :

Pour en savoir plus sur les quotas, consultez la documentation Google Cloud.

Comprendre les quotas de chaque API

Les quotas de chaque API sont mesurés de manière légèrement différente, ce qui signifie qu'ils peuvent être utilisés à des fins différentes.

Comprendre les quotas d'API Vertex AI

Les quotas de l'API Vertex AI sont basés sur "Générer des requêtes de contenu" par modèle, par région et par minute.

Voici quelques informations importantes sur ces quotas (en particulier, les requêtes par minute et les jetons d'entrée par minute):

  • Ils s'appliquent au niveau du projet et sont partagés entre toutes les applications et adresses IP qui utilisent ce projet Firebase.

  • Elles s'appliquent à tout appel à Vertex AI Gemini API, que ce soit via les SDK client Vertex AI in Firebase, les SDK du serveur Vertex AI, Firebase Genkit, Gemini Firebase Extensions, les appels REST, Vertex AI Studio ou d'autres clients API.

  • Ils s'appliquent à un modèle de base, ainsi qu'à toutes les versions, identifiants et versions réglées de ce modèle. Voici quelques exemples :

    • Une requête envoyée à gemini-1.0-pro et une requête envoyée à gemini-1.0-pro-001 sont comptabilisées comme deux requêtes dans le quota de RPM du modèle de base, gemini-1.0 pro.

    • Une requête envoyée à gemini-1.0-pro-001 et une requête envoyée à un modèle ajusté basé sur gemini-1.0-pro-001 sont comptabilisées comme deux requêtes dans le quota de RPM du modèle de base, gemini-1.0-pro.

  • Les quotas par défaut pour chaque modèle et chaque région sont disponibles dans la documentation Google Cloud.

Vous pouvez considérer les quotas de cette API comme des quotas "totaux " pour tous vos utilisateurs (qui utilisent les fonctionnalités d'IA de votre application qui reposent sur un modèle spécifique et dans une région spécifique).

Ces quotas doivent être suffisamment élevés pour prendre en charge le nombre total d'utilisateurs finaux d'une région spécifique susceptibles d'accéder à vos fonctionnalités d'IA qui reposent sur un modèle spécifique. Étant donné qu'il s'agit de quotas par minute, il est relativement peu probable que tous vos utilisateurs d'une région utilisent le même ensemble de fonctionnalités en même temps et utilisent ces quotas. Toutefois, chaque application étant différente, ajustez ces quotas en conséquence.

Comprendre le quota de l'API Vertex AI in Firebase

Le quota de l'API Vertex AI in Firebase est basé sur "Générer des requêtes de contenu" sur une base par utilisateur, par région et par minute.

Voici quelques informations importantes sur ce quota (en particulier, les requêtes par minute):

  • Il s'applique au niveau du projet et à toutes les applications et adresses IP qui utilisent ce projet Firebase.

  • Il s'applique à tout appel qui passe spécifiquement par un SDK Vertex AI in Firebase.

  • Le quota par défaut est de 100 RPM par utilisateur.
    Notez que vous devez toujours tenir compte des limites de quota pour l'API Vertex AI, en particulier si elles sont inférieures à 100 RPM.

Vous pouvez considérer le quota de cette API comme votre quota "par utilisateur" pour les fonctionnalités d'IA qui s'appuient sur Vertex AI in Firebase.

Ce quota doit être suffisamment élevé pour permettre à un seul utilisateur d'accéder aux fonctionnalités d'IA qui reposent sur Vertex AI in Firebase. Étant donné que cette API sert de passerelle à l'API Vertex AI, vous pouvez utiliser le quota de l'API Vertex AI in Firebase pour vous assurer qu'aucun utilisateur ne vide votre quota d'API Vertex AI (qui est censé être partagé par tous vos utilisateurs).

Consulter les quotas de chaque API

Vous pouvez consulter les quotas de chaque API dans la console Google Cloud.

  1. Dans la console Google Cloud, accédez à la page de l'API qui vous intéresse : API Vertex AI ou API Vertex AI in Firebase.

  2. Cliquez sur Gérer.

  3. Plus bas sur la page, cliquez sur l'onglet Quotas et limites du système.

  4. Filtrez le tableau pour afficher les quotas qui vous intéressent.

    Notez que pour créer un filtre Dimension, vous devez utiliser les outils de filtrage plutôt que de simplement copier-coller les valeurs des exemples suivants.

    • Pour l'API Vertex AI:spécifiez la fonctionnalité (requêtes de génération de contenu), le nom du modèle et la région.

      Par exemple, pour afficher les quotas de génération de requêtes de contenu avec Gemini 1.5 Flash dans l'une des régions de l'UE compatibles, votre filtre se présente comme suit:
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • Pour l'API Vertex AI in Firebase:spécifiez la fonctionnalité (requêtes de génération de contenu) et la région.

      Par exemple, pour afficher les quotas par utilisateur pour la génération de requêtes de contenu dans l'une des régions asiatiques acceptées, votre filtre se présente comme suit:
      Generate content requests + Dimension:region:asia

      Notez que les quotas de l'API Vertex AI in Firebase ne sont pas basés sur un modèle particulier. De plus, la ligne de quota (default) ne s'applique pas à Vertex AI in Firebase.

Modifier le quota ou demander une augmentation de quota

Avant de passer en production ou si vous recevez des erreurs de dépassement de quota 429, vous devrez peut-être modifier votre quota ou demander une augmentation de quota. Assurez-vous d'ajuster le quota de chaque API en conséquence (pour en savoir plus, consultez la section Comprendre les quotas de chaque API plus haut sur cette page).

Pour modifier un quota, vous devez disposer de l'autorisation serviceusage.quotas.update, qui est incluse par défaut dans les rôles "Propriétaire" et "Éditeur".

Pour modifier votre quota ou demander une augmentation de quota:

  1. Suivez les instructions de la sous-section précédente pour afficher les quotas de chaque API.

  2. Cochez la case située à gauche de chaque quota qui vous intéresse.

  3. À la fin de la ligne du quota, cliquez sur le menu à trois points, puis sélectionnez Modifier le quota.

  4. Dans le formulaire Modifications de quota, procédez comme suit:

    1. Saisissez le nouveau quota dans le champ Nouvelle valeur.

      Ce quota s'applique au niveau du projet et est partagé entre toutes les applications et adresses IP qui utilisent ce projet Firebase.

    2. Renseignez tous les champs supplémentaires du formulaire, puis cliquez sur OK.

    3. Cliquez sur Envoyer la requête.