The latest Gemini models, like Gemini 3.1 Flash Image (Nano Banana 2), are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models will shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Firebase AI Logic のコンテキストキャッシュ保存

AI 機能では、同じ入力トークン（コンテンツ）をモデルに繰り返し渡すことがあります。このようなユースケースでは、このコンテンツをキャッシュに保存できます。つまり、コンテンツをモデルに一度渡して保存し、後続のリクエストで参照します。

コンテキストキャッシュを使用すると、大量のテキスト、音声ファイル、動画ファイルなど、大量のコンテンツを伴う反復タスクのレイテンシと費用を大幅に削減できます。キャッシュに保存されたコンテンツの一般的なユースケースには、詳細なペルソナドキュメント、コードベース、マニュアルなどがあります。

Gemini モデルには、次の 2 つの異なるキャッシュ保存メカニズムがあります。

暗黙的なキャッシュ: ほとんどのモデルで自動的に有効になりますが、費用削減は保証されません。
明示的なキャッシュ保存: ほとんどのモデルで任意で手動で有効にできます。通常、費用を削減できます。

明示的なキャッシュ保存は、コスト削減をより確実に保証したい場合に役立ちますが、開発者の作業が追加されます。

暗黙的なキャッシュ保存と明示的なキャッシュ保存の両方で、レスポンスのメタデータの cachedContentTokenCount フィールドは、入力のキャッシュに保存された部分のトークン数を示します。明示的なキャッシュ保存については、このページの下部にある料金情報を必ずご確認ください。

サポートされているモデル

次のモデルを使用する場合、キャッシュ保存がサポートされます。

gemini-3.1-pro-preview
gemini-3-flash-preview
gemini-3.1-flash-lite
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite

メディア生成モデル（gemini-3.1-flash-image-preview などの Nana Banana モデルなど）は、コンテキストキャッシュ保存をサポートしていません。

キャッシュに保存されたコンテンツのサイズ上限

各モデルには、キャッシュに保存されたコンテンツの最小トークン数の要件があります。最大値はモデルのコンテキストウィンドウによって決まります。

Gemini Pro モデル: 最小 4,096 トークン
Gemini Flash モデル: 最小 1,024 トークン

また、blob またはテキストを使用してキャッシュに保存できるコンテンツの最大サイズは 10 MB です。

暗黙的なキャッシュ保存

暗黙的なキャッシュ保存はデフォルトで有効になっています。ほとんどの Gemini モデルで使用できます。

リクエストがキャッシュに保存されたコンテンツにヒットした場合、Google は自動的にコスト削減を適用します。リクエストで暗黙的なキャッシュ保存が使用される可能性を高める方法は次のとおりです。

大規模で一般的なコンテンツは、プロンプトの先頭に配置してみてください。
類似した接頭辞を含むリクエストを短時間で送信しようとします。

入力のキャッシュに保存された部分のトークン数は、レスポンスのメタデータの cachedContentTokenCount フィールドで確認できます。

明示的なキャッシュ保存

明示的なキャッシュ保存はデフォルトでは有効になっていません。これは Gemini モデルのオプション機能です。

重要: Firebase AI Logic を使用すると、サーバープロンプトテンプレートを使用している場合にのみ、明示的なコンテンツキャッシュにアクセスできます。

また、Firebase AI Logic の場合は、明示的なコンテンツキャッシュの作成と管理の際に Gemini API キーの使用や誤っての公開を心配する必要がないように、Vertex AI Gemini API でのみ明示的なコンテンツキャッシュを使用することを強くおすすめします。

Firebase AI Logic は、明示的なキャッシュ保存のワークフローの改善に取り組んでいます。この機能にご興味をお持ちの場合は、既存の User Voice エントリに賛成票を投じてください。これにより、リソースを集中すべき分野であることを Google が把握できます。

露骨なコンテンツのキャッシュを設定して使用する方法は次のとおりです。

明示的なキャッシュを作成して使用する

明示的なキャッシュを管理します。これには以下が含まれます。

すべてのキャッシュを一覧表示する

キャッシュに関するメタデータを取得する

キャッシュの TTL または有効期限を更新する

キャッシュを削除する

明示的なコンテンツキャッシュは暗黙的なキャッシュと相互作用し、明示的にキャッシュに保存されたコンテンツを超えて追加のキャッシュ保存が行われる可能性があります。暗黙的なキャッシュ保存を無効にし、明示的なキャッシュを作成しないことで、キャッシュデータの保持を防ぐことができます。詳細については、キャッシュ保存を有効または無効にするをご覧ください。

明示的なキャッシュを作成して使用する

露骨な表現を含むコンテンツのキャッシュを作成して使用するには、次のものが必要です。

明示的なキャッシュを作成します。

サーバープロンプトテンプレートでキャッシュを参照します。

アプリからのプロンプトリクエストでサーバープロンプトテンプレートを参照します。

明示的なキャッシュの作成と使用に関する重要な情報

キャッシュは、アプリのプロンプトリクエストとサーバーのプロンプトテンプレートに沿ったものにする必要があります。

キャッシュは Gemini API プロバイダに固有です。アプリのプロンプトリクエストでは、同じプロバイダを使用する必要があります。
Firebase AI Logic の場合は、明示的なコンテンツキャッシュを Vertex AI Gemini API でのみ使用することを強くおすすめします。このページの情報と例は、その Gemini API プロバイダに固有のものです。

キャッシュは Gemini モデルに固有です。アプリのプロンプトリクエストでは、同じモデルを使用する必要があります。

Vertex AI Gemini API を使用する場合、キャッシュは特定の場所に固有です。
明示的なキャッシュのロケーションは、アプリのプロンプトリクエストのサーバープロンプトテンプレートのロケーションとモデルにアクセスするロケーションと一致する必要があります。

また、明示的なキャッシュ保存には次の制限事項と要件があります。

明示的なキャッシュを作成すると、TTL または有効期限を除き、キャッシュに関する変更は一切できなくなります。

サポートされている入力ファイル MIME タイプをキャッシュに保存できます。また、キャッシュ作成リクエストで指定されたテキストのみをキャッシュに保存することもできます。

ファイルをキャッシュに含める場合は、Cloud Storage URI としてファイルを提供する必要があります。ブラウザの URL や YouTube の URL は使用できません。

また、ファイルのアクセス制限は cache-creation-time にチェックされ、user-request-time にアクセス制限が再度チェックされることはありません。そのため、明示的なキャッシュに含まれるデータは、そのキャッシュを含むリクエストを行うすべてのユーザーに適していることを確認してください。

システム指示やツール（コード実行、URL コンテキスト、Google Search によるグラウンディング、Google Maps によるグラウンディングなど）を使用する場合は、キャッシュ自体にそれらの構成が含まれている必要があります。サーバープロンプトテンプレートやアプリのプロンプトリクエストで構成することはできません。サーバープロンプトテンプレートは、関数呼び出し（またはチャット）をまだサポートしていません。キャッシュ内のシステム指示とツールを構成する方法の詳細については、Vertex AI Gemini API の REST API をご覧ください。

ステップ 1: キャッシュを作成する

Vertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST APIVertex AI Gemini API の REST API�

次の例では、PDF ファイルの明示的なキャッシュをコンテンツとして作成します。

注: 次の例では、gcloud init または gcloud auth login を実行して gcloud CLI にログインしていることを前提としています。
gcloud CLI にアクセスする場合は、Cloud Shell Firebase コンソールから直接アクセスすることをおすすめします（Firebase コンソールへのログインに使用した Google アカウントで認証済みです）。
構文:

PROJECT_ID="PROJECT_ID" MODEL_ID="GEMINI_MODEL" # for example, gemini-3-flash-preview LOCATION="LOCATION" # location for both the cache and the model MIME_TYPE="MIME_TYPE" CACHED_CONTENT_URI="CLOUD_STORAGE_FILE_URI" # must be a Cloud Storage URI CACHE_DISPLAY_NAME="CACHE_DISPLAY_NAME" # optional TTL="CACHE_TIME_TO_LIVE" # optional (if not specified, defaults to 3600s) curl \ -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents \ -d @- <<EOF { "model":"projects/${PROJECT_ID}/locations/${LOCATION}/publishers/google/models/${MODEL_ID}", "contents": [ { "role": "user", "parts": [ { "fileData": { "mimeType": "${MIME_TYPE}", "fileUri": "${CACHED_CONTENT_URI}" } } ] } ], "displayName": "${CACHE_DISPLAY_NAME}", "ttl": "${TTL}" } EOF

リクエストの例:

PROJECT_ID="my-amazing-app" MODEL_ID="gemini-3-flash-preview" LOCATION="global" MIME_TYPE="application/pdf" CACHED_CONTENT_URI="gs://cloud-samples-data/generative-ai/pdf/2312.11805v3.pdf" CACHE_DISPLAY_NAME="Gemini - A Family of Highly Capable Multimodal Model (PDF)" TTL="7200s" curl \ -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents \ -d @- <<EOF { "model":"projects/${PROJECT_ID}/locations/${LOCATION}/publishers/google/models/${MODEL_ID}", "contents": [ { "role": "user", "parts": [ { "fileData": { "mimeType": "${MIME_TYPE}", "fileUri": "${CACHED_CONTENT_URI}" } } ] } ], "displayName": "${CACHE_DISPLAY_NAME}", "ttl": "${TTL}" } EOF

レスポンスの例:

レスポンスには、キャッシュに対してグローバルに一意の完全修飾リソース name が含まれます（最後のセグメントはキャッシュ ID です）。この name 値全体は、ワークフローの次のステップで使用します。

{ "name": "projects/861083271981/locations/global/cachedContents/4545031458888089601", "model": "projects/my-amazing-app/locations/global/publishers/google/models/gemini-3-flash-preview", "createTime": "2024-06-04T01:11:50.808236Z", "updateTime": "2024-06-04T01:11:50.808236Z", "expireTime": "2024-06-04T02:11:50.794542Z" }

ステップ 2: サーバープロンプトテンプレートでキャッシュを参照する

重要: Firebase AI Logic は、サーバープロンプトテンプレートを使用する場合にのみ、露骨なコンテンツのキャッシュへのアクセスを許可します。
キャッシュを作成したら、サーバープロンプトテンプレートの cachedContent プロパティ内で name で参照します。

サーバープロンプトテンプレートを作成する際は、次の要件を満たしてください。

キャッシュを作成したときにレスポンスから取得した完全修飾リソース name を使用します。これは、リクエストで指定したオプションの表示名ではありません。

サーバープロンプトテンプレートのロケーションは、キャッシュのロケーションと一致している必要があります。

システム指示やツールを使用するには、それらをサーバープロンプトテンプレートの一部としてではなく、キャッシュの一部として構成する必要があります。

構文:

{{cachedContent name="YOUR_CACHE_RESOURCE_NAME"}} {{role "user"}} {{userPrompt}}

例:

{{cachedContent name="projects/861083271981/locations/global/cachedContents/4545031458888089601"}} {{role "user"}} {{userPrompt}}

または、サーバープロンプトテンプレートの name パラメータの値は、動的入力変数にすることもできます。たとえば、{{cachedContent name=someVariable}} を使用すると、アプリからのリクエストの入力としてキャッシュの name を含めることができます。

ステップ 3: アプリからのリクエストでサーバープロンプトテンプレートを参照する

リクエストを送信する際は、以下の点に十分ご注意ください。

キャッシュは Gemini API プロバイダで作成されているため、Vertex AI Gemini API を使用します。

アプリのプロンプトリクエストのモデルにアクセスするロケーションは、サーバープロンプトテンプレートとキャッシュのロケーションと一致する必要があります。

Swift
// ... // Initialize the Vertex AI Gemini API backend service // Create a `TemplateGenerativeModel` instance // Make sure to specify the same location as the server prompt template and the cache let model = FirebaseAI.firebaseAI(backend: .vertexAI(location: "LOCATION")) .templateGenerativeModel() do { let response = try await model.generateContent( // Specify your template ID templateID: "TEMPLATE_ID" ) if let text = response.text { print("Response Text: \(text)") } } catch { print("An error occurred: \(error)") } print("\n")

Kotlin
// ... // Initialize the Vertex AI Gemini API backend service // Create a `TemplateGenerativeModel` instance // Make sure to specify the same location as the server prompt template and the cache val model = Firebase.ai(backend = GenerativeBackend.vertexAI(location = "LOCATION")) .templateGenerativeModel() val response = model.generateContent( // Specify your template ID "TEMPLATE_ID", ) val text = response.text println(text)

Java
// ... // Initialize the Vertex AI Gemini API backend service // Create a `TemplateGenerativeModel` instance // Make sure to specify the same location as the server prompt template and the cache TemplateGenerativeModel generativeModel = FirebaseAI.getInstance().templateGenerativeModel(); TemplateGenerativeModelFutures model = TemplateGenerativeModelFutures.from(generativeModel); Future<GenerateContentResponse> response = model.generateContent( // Specify your template ID "TEMPLATE_ID" ); addCallback(response, new FutureCallback<GenerateContentResponse>() { public void onSuccess(GenerateContentResponse result) { System.out.println(result.getText()); } public void onFailure(Throwable t) { reportError(t); } } executor);

Web
// ... // Initialize the Vertex AI Gemini API backend service // Make sure to specify the same location as the server prompt template and the cache const ai = getAI(app, { backend: new VertexAIBackend('LOCATION') }); // Create a `TemplateGenerativeModel` instance const model = getTemplateGenerativeModel(ai); const result = await model.generateContent( // Specify your template ID 'TEMPLATE_ID' ); const response = result.response; const text = response.text();

Dart
// ... // Initialize the Vertex AI Gemini API backend service // Create a `TemplateGenerativeModel` instance // Make sure to specify the same location as the server prompt template and the cache var _model = FirebaseAI.vertexAI(location: 'LOCATION').templateGenerativeModel() var response = await _model.generateContent( // Specify your template ID 'TEMPLATE_ID', ); var text = response?.text; print(text);

Unity
// ... // Initialize the Vertex AI Gemini API backend service // Make sure to specify the same location as the server prompt template and the cache var firebaseAI = FirebaseAI.GetInstance(FirebaseAI.Backend.VertexAI(location: "LOCATION")); // Create a `TemplateGenerativeModel` instance var model = firebaseAI.GetTemplateGenerativeModel(); try { var response = await model.GenerateContentAsync( // Specify your template ID "TEMPLATE_ID" ); Debug.Log($"Response Text: {response.Text}"); } catch (Exception e) { Debug.LogError($"An error occurred: {e.Message}"); }

注: テンプレート内のキャッシュの name が無効な場合、すべてのコンポーネントでロケーションが一致しない場合、またはキャッシュが期限切れの場合、リクエストはエラー Explicit content cache doesn't exist で失敗します。

明示的なキャッシュを管理する

このセクションでは、明示的なコンテンツキャッシュの管理について説明します。これには、すべてのキャッシュを一覧表示する方法、キャッシュに関するメタデータを取得する方法、キャッシュの TTL または有効期限を更新する方法、キャッシュを削除する方法が含まれます。

明示的なキャッシュは、Vertex AI Gemini API の REST API を使用して管理します。

明示的なコンテンツキャッシュを作成すると、TTL または有効期限以外のキャッシュを変更することはできません。

注: 次の例は、gcloud init または gcloud auth login を実行して gcloud CLI にログインしていることを前提としています。
gcloud CLI にアクセスする場合は、Cloud Shell Firebase コンソールから直接アクセスすることをおすすめします（Firebase コンソールへのログインに使用した Google アカウントで認証済みです）。
すべてのキャッシュを一覧表示する

プロジェクトで使用可能なすべての明示的キャッシュを一覧表示できます。このコマンドは、指定したロケーションのキャッシュのみを返します。

PROJECT_ID="PROJECT_ID" LOCATION="LOCATION" curl \ -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents

キャッシュに関するメタデータを取得する

キャッシュに保存された実際のコンテンツを取得したり、表示したりすることはできません。ただし、name、model、display_name、usage_metadata、create_time、update_time、expire_time などの明示的なキャッシュに関するメタデータは取得できます。

キャッシュの完全修飾リソース name の最後のセグメントである CACHE_ID を指定する必要があります。

PROJECT_ID="PROJECT_ID" LOCATION="LOCATION" CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache curl \ -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID}

キャッシュの TTL または有効期限を更新する

明示的なキャッシュを作成するときに、必要に応じて ttl または expire_time を設定できます。

ttl: キャッシュの TTL（有効期間）。具体的には、キャッシュの作成後、または ttl の更新後からキャッシュが期限切れになるまでの時間を秒単位およびナノ秒単位で指定します。ttl を設定すると、キャッシュの expireTime が自動的に更新されます。

expire_time: キャッシュが期限切れになる絶対日時を指定する Timestamp（2024-06-30T09:00:00.000000Z など）。

これらの値を設定しない場合、デフォルトの TTL は 1 時間です。TTL に最小値や最大値の制限はありません。

既存の明示的キャッシュの場合は、ttl または expire_time を追加または更新できます。キャッシュの完全修飾リソース name の最後のセグメントである CACHE_ID を指定する必要があります。

ttl を更新する

PROJECT_ID="PROJECT_ID" LOCATION="LOCATION" CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache TTL="CACHE_TIME_TO_LIVE" curl \ -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID} -d \ '{ "ttl": "'$TTL'" }'

expire_time を更新する

PROJECT_ID="PROJECT_ID" LOCATION="LOCATION" CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache EXPIRE_TIME="ABSOLUTE_TIME_CACHE_EXPIRES" curl \ -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID} -d \ '{ "expire_time": "'$EXPIRE_TIME'" }'

キャッシュを削除する

明示的なキャッシュが不要になった場合は、削除できます。

注意: キャッシュを削除する前に、サーバープロンプトテンプレートまたはアプリからのリクエストでキャッシュが使用されていないことを確認してください。キャッシュを削除すると、復元することはできません。キャッシュを削除しても、キャッシュに含まれていた実際のソースコンテンツは削除されません。
キャッシュの完全修飾リソース name の最後のセグメントである CACHE_ID を指定する必要があります。

PROJECT_ID="PROJECT_ID" LOCATION="LOCATION" CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache curl \ -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID}

明示的なキャッシュ保存の料金

明示的なキャッシュ保存は、コスト削減を目的とした有料機能です。料金は次の要素に基づいて計算されます。

キャッシュ作成用の入力トークン: 暗黙的なキャッシュ保存と明示的なキャッシュ保存の両方で、キャッシュの作成に使用された入力トークンに対して、標準の入力トークン料金で請求されます。

キャッシュの保存: 明示的なキャッシュ保存の場合、キャッシュの保存期間に基づいてストレージ費用が発生します。暗黙的なキャッシュ保存にはストレージ費用がかかりません。詳細については、Vertex AI Gemini API の料金をご覧ください。

キャッシュに保存されたコンテンツの使用: 明示的なキャッシュ保存では、明示的なキャッシュが参照されるときに割引が適用されます。つまり、既存のキャッシュを参照する入力トークンに対して割引が適用されます。Gemini 2.5 以降のモデルの場合、この割引率は 90% です。

入力のキャッシュに保存された部分のトークン数は、レスポンスのメタデータの cachedContentTokenCount フィールドで確認できます。

Firebase AI Logic のコンテキストキャッシュ保存

サポートされているモデル

キャッシュに保存されたコンテンツのサイズ上限

暗黙的なキャッシュ保存

明示的なキャッシュ保存

明示的なキャッシュを作成して使用する

明示的なキャッシュの作成と使用に関する重要な情報

ステップ 1: キャッシュを作成する

ステップ 2: サーバープロンプトテンプレートでキャッシュを参照する

ステップ 3: アプリからのリクエストでサーバープロンプトテンプレートを参照する

Swift

Kotlin

Java

Web

Dart

Unity

明示的なキャッシュを管理する

すべてのキャッシュを一覧表示する

キャッシュに関するメタデータを取得する

キャッシュの TTL または有効期限を更新する

キャッシュを削除する

明示的なキャッシュ保存の料金

Firebase AI Logic のコンテキスト キャッシュ保存 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

サポートされているモデル

キャッシュに保存されたコンテンツのサイズ上限

暗黙的なキャッシュ保存

明示的なキャッシュ保存

明示的なキャッシュを作成して使用する

明示的なキャッシュの作成と使用に関する重要な情報

ステップ 1: キャッシュを作成する

ステップ 2: サーバー プロンプト テンプレートでキャッシュを参照する

ステップ 3: アプリからのリクエストでサーバー プロンプト テンプレートを参照する

Swift

Kotlin

Java

Web

Dart

Unity

明示的なキャッシュを管理する

すべてのキャッシュを一覧表示する

キャッシュに関するメタデータを取得する

キャッシュの TTL または有効期限を更新する

キャッシュを削除する

明示的なキャッシュ保存の料金

Firebase AI Logic のコンテキストキャッシュ保存

ステップ 2: サーバープロンプトテンプレートでキャッシュを参照する

ステップ 3: アプリからのリクエストでサーバープロンプトテンプレートを参照する