割り当てを把握して管理する

Vertex AI in Firebase には、Vertex AI API と Vertex AI in Firebase API の 2 つの異なる API(それぞれ独自の割り当て)が必要です。

これらの API には、リクエスト数(RPM)で測定される割り当てがあります。具体的には、「コンテンツを生成」リクエスト(ストリーミングありとストリーミングなしの両方)です。Vertex AI API には、1 分あたりの入力トークンの割り当ても設定されています。

このページでは、次について説明します。

割り当ての一般的な情報については、Google Cloud のドキュメントをご覧ください。

各 API の割り当てについて

各 API の割り当ては測定方法が若干異なるため、さまざまな目的に使用できます。

Vertex AI API の割り当てについて

Vertex AI API の割り当ては、モデルごと、リージョンごと、1 分あたりの「コンテンツ リクエストの生成」に基づいています。

これらの割り当て(特に 1 分あたりのリクエスト数と 1 分あたりの入力トークン数)に関する重要な詳細は次のとおりです。

  • これらはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。

  • Vertex AI in Firebase クライアント SDK、Vertex AI サーバー SDK、Firebase Genkit、Gemini Firebase Extensions、REST 呼び出し、Vertex AI Studio、その他の API クライアントの使用にかかわらず、Vertex AI Gemini API へのすべての呼び出しに適用されます。

  • これらは、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。次に例を示します。

    • gemini-1.0-pro へのリクエストと gemini-1.0-pro-001 へのリクエストは、ベースモデル gemini-1.0 pro の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。

    • gemini-1.0-pro-001 へのリクエストと、gemini-1.0-pro-001 に基づくチューニング済みモデルへのリクエストは、ベースモデル gemini-1.0-pro の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。

  • 各モデルと各リージョンのデフォルトの割り当ては、Google Cloud のドキュメントをご覧ください。

基本的に、この API の割り当ては、すべてのユーザー(特定のモデルに依存するアプリの AI 機能を特定のリージョンで使用するユーザー)の「合計」割り当てと見なすことができます。

これらの割り当ては、特定のモデルに依存する AI 機能にアクセスする可能性のある特定のリージョンのエンドユーザーの合計数を合理的に収容できるほど高くする必要があります。これは 1 分あたりの割り当てであるため、1 つのリージョン内のすべてのユーザーが同じ一連の機能を同時に使用して、これらの割り当てを使い果たす可能性は比較的低くなります。ただし、アプリによって異なるため、必要に応じてこれらの割り当てを調整してください。

Vertex AI in Firebase API の割り当てについて

Vertex AI in Firebase API の割り当ては、ユーザーごと、リージョンごと、1 分あたりの「コンテンツ生成リクエスト」に基づいています。

この割り当て(特に 1 分あたりのリクエスト数)に関する重要な詳細は次のとおりです。

  • これはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスに適用されます。

  • これは、Vertex AI in Firebase SDK を経由する呼び出しに適用されます。

  • デフォルトの割り当ては、ユーザーあたり 100 RPM です。
    ただし、特にこの 100 RPM より低い場合は、Vertex AI API の割り当て上限を考慮する必要があります。

基本的に、この API の割り当ては、Vertex AI in Firebase に依存する AI 機能の「ユーザーごと」の割り当てと見なすことができます。

この割り当ては、Vertex AI in Firebase に依存する AI 機能にアクセスする 1 人のユーザーを合理的に収容できるほど高くする必要があります。この API は Vertex AI API へのゲートウェイとして機能するため、Vertex AI in Firebase API の割り当てを使用して、単一のユーザーが Vertex AI API の割り当て(すべてのユーザーが共有することを目的としています)を使い果たさないようにすることができます。

各 API の割り当てを表示する

各 API の割り当ては、Google Cloud コンソールで確認できます。

  1. Google Cloud コンソールで、目的の API(Vertex AI API または Vertex AI in Firebase API)のページに移動します。

  2. [管理] をクリックします。

  3. ページの下部にある [割り当てとシステム上限] タブをクリックします。

  4. 表をフィルタして、目的の割り当てを表示します。

    Dimension フィルタを作成するには、次の例の値をコピーして貼り付けるのではなく、フィルタ ツールを使用する必要があります。

    • Vertex AI API の場合: 機能(コンテンツ生成リクエスト)、モデル名、リージョンを指定します。

      たとえば、サポートされている EU リージョンで Gemini 1.5 Flash を使用してコンテンツ リクエストを生成する割り当てを表示するには、フィルタを次のように設定します。
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • Vertex AI in Firebase API の場合: 機能(コンテンツの生成リクエスト)とリージョンを指定します。

      たとえば、サポートされているアジアのいずれかのリージョンでコンテンツ リクエストを生成するユーザーごとの割り当てを表示するには、フィルタは次のようになります。
      Generate content requests + Dimension:region:asia

      Vertex AI in Firebase API の割り当ては特定のモデルに基づいていません。また、(default) の割り当て行は Vertex AI in Firebase には適用されません。

割り当てを編集する、または割り当ての増加をリクエストする

本番環境に移行する前や、429 割り当て超過エラーが発生している場合は、割り当てを編集するか、割り当ての増加をリクエストする必要があります。各 API の割り当てを適切に調整してください(考慮事項については、このページの各 API の割り当てについてをご覧ください)。

割り当てを編集するには、serviceusage.quotas.update 権限が必要です。この権限は、オーナーロールと編集者ロールにデフォルトで含まれています。

割り当てを編集する方法、または割り当ての増加をリクエストする方法は次のとおりです。

  1. 前のセクションの手順に沿って、各 API の割り当てを表示します。

  2. 対象の各割り当ての左側にあるチェックボックスをオンにします。

  3. 割り当ての行の末尾にあるその他メニューをクリックし、[割り当てを編集] を選択します。

  4. [割り当ての変更] フォームで、次の操作を行います。

    1. [新しい値] フィールドに、増加した割り当てを入力します。

      この割り当てはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。

    2. フォームのその他のフィールドに入力して、[完了] をクリックします。

    3. [リクエストを送信] をクリックします。