Vertex AI in Firebase には、Vertex AI API と Vertex AI in Firebase API の 2 つの異なる API(それぞれ独自の割り当て)が必要です。
これらの API には、分あたりのリクエスト数(RPM)で測定される割り当てがあります。具体的には、「コンテンツの生成」リクエスト(ストリーミングありとストリーミングなしの両方)です。Vertex AI API には、1 分あたりの入力トークンの割り当ても設定されています。
このページでは、次について説明します。
Vertex AI API と Vertex AI in Firebase API の割り当てについて
Google Cloud コンソールで割り当てを表示する
割り当ての一般的な情報については、Google Cloud のドキュメントをご覧ください。
各 API の割り当てについて
各 API の割り当ては測定方法が若干異なるため、さまざまな目的で使用できます。
Vertex AI API の割り当てについて
Vertex AI API の割り当ては、モデルごと、リージョンごと、分単位で「生成コンテンツ リクエスト」に基づいています。
これらの割り当て(特に 1 分あたりのリクエスト数と 1 分あたりの入力トークン数)に関する重要な詳細は次のとおりです。
これらはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。
Vertex AI in Firebase クライアント SDK、Vertex AI サーバー SDK、Firebase Genkit、Gemini Firebase Extensions、REST 呼び出し、Vertex AI Studio、その他の API クライアントを使用するかどうかに関係なく、Vertex AI Gemini API に対するすべての呼び出しに適用されます。
これらは、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。次に例を示します。
gemini-1.0-pro
へのリクエストとgemini-1.0-pro-001
へのリクエストは、ベースモデルgemini-1.0 pro
の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。gemini-1.0-pro-001
へのリクエストと、gemini-1.0-pro-001
に基づくチューニング済みモデルへのリクエストは、ベースモデルgemini-1.0-pro
の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。
各モデルと各リージョンのデフォルトの割り当ては、Google Cloud のドキュメントをご覧ください。
基本的に、この API の割り当ては、すべてのユーザー(特定のモデルと特定のリージョンに依存するアプリで AI 機能を使用するすべてのユーザー)の「合計」の割り当てと考えることができます。
これらの割り当ては、特定のモデルに依存する AI 機能にアクセスする可能性のある特定のリージョンのエンドユーザーの合計数を合理的に収容できるほど高くする必要があります。これは 1 分あたりの割り当てであるため、1 つのリージョン内のすべてのユーザーが同じ一連の機能を同時に使用して、これらの割り当てを使い果たす可能性は比較的低くなります。ただし、アプリごとに異なるため、これらの割り当てを適宜調整してください。
Vertex AI in Firebase API の割り当てについて
Vertex AI in Firebase API の割り当ては、ユーザーごと、リージョンごと、1 分あたりの「コンテンツ生成リクエスト」に基づいています。
この割り当て(特に 1 分あたりのリクエスト数)に関する重要な詳細は次のとおりです。
これはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスに適用されます。
これは、Vertex AI in Firebase SDK を経由するすべての呼び出しに適用されます。
デフォルトの割り当ては、ユーザーあたり 100 RPM です。
ただし、特にこの 100 RPM より低い場合は、Vertex AI API の割り当て上限を考慮する必要があります。
基本的に、この API の割り当ては、Vertex AI in Firebase に依存する AI 機能の「ユーザーごと」の割り当てと見なすことができます。
この割り当ては、Vertex AI in Firebase に依存する AI 機能にアクセスする 1 人のユーザーを合理的に収容できるほど高くする必要があります。この API は Vertex AI API へのゲートウェイとして機能するため、Vertex AI in Firebase API の割り当てを使用して、単一のユーザーが Vertex AI API の割り当て(すべてのユーザーが共有することを目的としています)を使い果たさないようにすることができます。
各 API の割り当てを表示する
各 API の割り当ては、Google Cloud コンソールで確認できます。
Google Cloud コンソールで、目的の API(Vertex AI API または Vertex AI in Firebase API)のページに移動します。
[管理] をクリックします。
ページの下部にある [割り当てとシステム上限] タブをクリックします。
テーブルをフィルタして、目的の割り当てを表示します。
Dimension
フィルタを作成するには、次の例の値をコピーして貼り付けるのではなく、フィルタ ツールを使用する必要があります。Vertex AI API の場合: 機能(コンテンツ生成リクエスト)、モデル名、リージョンを指定します。
たとえば、サポートされている EU リージョンで Gemini 1.5 Flash を使用してコンテンツ リクエストを生成する割り当てを表示するには、フィルタを次のように設定します。
Generate content requests
+Dimension:base_model:gemini-1.5-flash
+Dimension:region:eu
Vertex AI in Firebase API の場合: 機能(コンテンツを生成するためのリクエスト)とリージョンを指定します。
たとえば、サポートされているアジアのいずれかのリージョンでコンテンツ リクエストを生成するユーザーごとの割り当てを表示するには、フィルタは次のようになります。
Generate content requests
+Dimension:region:asia
Vertex AI in Firebase API の割り当ては特定のモデルに基づいていません。また、
(default)
の割り当て行は Vertex AI in Firebase には適用されません。
割り当てを編集する、または割り当ての増加をリクエストする
本番環境に移行する前や、429 割り当て超過エラーが発生している場合は、割り当てを編集するか、割り当ての増加をリクエストする必要があります。各 API の割り当てを適宜調整してください(考慮事項については、上記の各 API の割り当てについてをご覧ください)。
割り当てを編集するには、serviceusage.quotas.update
権限が必要です。この権限は、オーナーロールと編集者ロールにデフォルトで含まれています。
割り当てを編集する方法、または割り当ての増加をリクエストする方法は次のとおりです。
前のサブセクションの手順に沿って、各 API の割り当てを表示します。
目的の割り当ての左側にあるチェックボックスをオンにします。
割り当ての行の末尾にあるその他メニューをクリックし、[割り当てを編集] を選択します。
[割り当ての変更] フォームで、次の操作を行います。
[新しい値] フィールドに、割り当ての引き上げを入力します。
この割り当てはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。
フォームのその他のフィールドに入力して、[完了] をクリックします。
[リクエストを送信] をクリックします。