การแคชบริบทใน Firebase AI Logic

สำหรับฟีเจอร์ AI คุณอาจส่งโทเค็นอินพุต (เนื้อหา) เดียวกันซ้ำๆ ไปยังโมเดล สำหรับกรณีการใช้งานเหล่านี้ คุณสามารถแคชเนื้อหานี้แทนได้ ซึ่งหมายความว่าคุณส่งเนื้อหาไปยังโมเดลครั้งเดียว จัดเก็บไว้ และอ้างอิง ในคำขอที่ตามมา

การแคชบริบทช่วยลดเวลาในการตอบสนองและค่าใช้จ่ายสำหรับงานที่ทำซ้ำๆ ซึ่งเกี่ยวข้องกับเนื้อหาจำนวนมากได้อย่างมาก เช่น ข้อความจำนวนมาก ไฟล์เสียง หรือไฟล์วิดีโอ กรณีการใช้งานที่พบบ่อยบางส่วนสำหรับเนื้อหาที่แคช ได้แก่ เอกสารลักษณะตัวตนโดยละเอียด ฐานของโค้ด หรือคู่มือ

Gemini มีกลไกการแคช 2 แบบที่แตกต่างกัน ดังนี้

  • การแคชโดยนัย: เปิดใช้โดยอัตโนมัติในโมเดลส่วนใหญ่ ไม่รับประกันการประหยัดต้นทุน

  • การแคชอย่างชัดเจน: เปิดใช้โดยไม่บังคับและด้วยตนเองได้ในโมเดลส่วนใหญ่ ซึ่งมักจะช่วย ประหยัดค่าใช้จ่าย

การแคชอย่างชัดเจนมีประโยชน์ในกรณีที่คุณต้องการรับประกันการประหยัดค่าใช้จ่ายมากขึ้น แต่ต้องมีการทำงานเพิ่มเติมของนักพัฒนาซอฟต์แวร์

สําหรับการแคชทั้งโดยนัยและโดยชัดแจ้ง ฟิลด์ cachedContentTokenCount ในข้อมูลเมตาของการตอบกลับ จะระบุจํานวนโทเค็นในส่วนที่แคชของอินพุต สำหรับการแคชอย่างชัดเจน โปรดตรวจสอบข้อมูลราคาที่ด้านล่างของหน้านี้

โมเดลที่รองรับ

ระบบรองรับการแคชเมื่อใช้โมเดลต่อไปนี้

  • gemini-3.1-pro-preview
  • gemini-3-flash-preview
  • gemini-3.1-flash-lite-preview
  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite

โมเดลที่สร้างสื่อ (เช่น โมเดล Nana Banana อย่าง gemini-3.1-flash-image-preview) ไม่รองรับการแคชบริบท

ขีดจำกัดขนาดของเนื้อหาที่แคชไว้

แต่ละโมเดลมีข้อกำหนดด้านจำนวนโทเค็นขั้นต่ำสำหรับเนื้อหาที่แคชไว้ โดยค่าสูงสุดจะขึ้นอยู่กับหน้าต่างบริบทของโมเดล

  • Gemini โมเดล Pro: โทเค็นขั้นต่ำ 4096 รายการ
  • Gemini โมเดล Flash: โทเค็นขั้นต่ำ 1024 รายการ

นอกจากนี้ ขนาดสูงสุดของเนื้อหาที่คุณแคชโดยใช้ BLOB หรือข้อความคือ 10 MB



การแคชโดยนัย

การแคชโดยนัยจะเปิดใช้โดยค่าเริ่มต้นและพร้อมใช้งานสำหรับโมเดล Gemini ส่วนใหญ่

Google จะส่งต่อส่วนลดค่าใช้จ่ายโดยอัตโนมัติหากคำขอของคุณตรงกับเนื้อหาที่แคชไว้ วิธีเพิ่มโอกาสที่คำขอจะใช้ การแคชโดยนัยมีดังนี้

  • ลองใส่เนื้อหาขนาดใหญ่และเนื้อหาทั่วไปไว้ที่จุดเริ่มต้นของพรอมต์
  • ลองส่งคำขอที่มีคำนำหน้าที่คล้ายกันในระยะเวลาอันสั้น

ระบบจะระบุจำนวนโทเค็นในส่วนที่แคชไว้ของอินพุตในฟิลด์ cachedContentTokenCount ในข้อมูลเมตาของการตอบกลับ



การแคชที่ชัดเจน

การแคชอย่างชัดเจนจะไม่ได้เปิดใช้โดยค่าเริ่มต้น และเป็นความสามารถที่ไม่บังคับ ของโมเดล Gemini

วิธีตั้งค่าและทำงานกับแคชเนื้อหาโจ่งแจ้งมีดังนี้

โปรดทราบว่าแคชเนื้อหาที่อาจไม่เหมาะสมจะโต้ตอบกับการแคชโดยนัย ซึ่งอาจ ทำให้เกิดการแคชเพิ่มเติมที่นอกเหนือจากเนื้อหาที่แคชอย่างชัดเจน คุณ ป้องกันการเก็บรักษาข้อมูลแคชได้โดยการปิดใช้การแคชโดยนัยและไม่สร้าง แคชที่ชัดเจน ดูข้อมูลเพิ่มเติมได้ที่ เปิดและปิดใช้การแคช



สร้างและใช้แคชที่ชัดเจน

การสร้างและใช้แคชเนื้อหาโจ่งแจ้งต้องมีสิ่งต่อไปนี้

  1. สร้างแคชที่ชัดเจน

  2. อ้างอิงแคชในเทมเพลตพรอมต์ของเซิร์ฟเวอร์

  3. อ้างอิงเทมเพลตพรอมต์ของเซิร์ฟเวอร์ในคำขอพรอมต์จากแอป

ข้อมูลสำคัญเกี่ยวกับการสร้างและการใช้แคชที่ชัดเจน

แคชต้องสอดคล้องกับคำขอพรอมต์ของแอปและเทมเพลตพรอมต์ของเซิร์ฟเวอร์

  • แคชจะใช้ได้เฉพาะกับGemini APIของผู้ให้บริการ คำขอพรอมต์ของแอปต้องใช้ผู้ให้บริการเดียวกัน
    สำหรับ Firebase AI Logic เราขอแนะนำอย่างยิ่งให้ใช้แคชเนื้อหาที่อาจไม่เหมาะสม เฉพาะกับ Vertex AI Gemini API ข้อมูลและ ตัวอย่างทั้งหมดในหน้านี้เป็นข้อมูลเฉพาะสำหรับผู้ให้บริการ Gemini API รายนั้น

  • แคชมีไว้สำหรับGeminiรุ่นใดรุ่นหนึ่งโดยเฉพาะ คำขอพรอมต์ของแอปต้องใช้โมเดลเดียวกัน

  • แคชจะเฉพาะเจาะจงกับสถานที่เมื่อใช้ Vertex AI Gemini API
    ตำแหน่งของแคชที่ชัดเจนต้องตรงกับ ตำแหน่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์ และ ตำแหน่งที่คุณเข้าถึงโมเดล ในคำขอพรอมต์ของแอป

นอกจากนี้ โปรดทราบข้อจำกัดและข้อกำหนดต่อไปนี้สำหรับการแคชอย่างชัดแจ้ง

  • เมื่อสร้างแคชที่ชัดเจนแล้ว คุณจะเปลี่ยนแปลงสิ่งใดเกี่ยวกับแคชไม่ได้ ยกเว้น TTL หรือเวลาหมดอายุ

  • คุณสามารถแคช ประเภท MIME ของไฟล์อินพุตที่รองรับ หรือแม้แต่ข้อความที่ระบุไว้ในคำขอสร้างแคช

  • หากต้องการรวมไฟล์ไว้ในแคช คุณต้องระบุไฟล์เป็น Cloud Storage URI ต้องไม่ใช่ URL ของเบราว์เซอร์หรือ URL ของ YouTube

    นอกจากนี้ ระบบจะตรวจสอบการจํากัดการเข้าถึงไฟล์ที่ เวลาสร้างแคช และจะไม่ตรวจสอบการจํากัดการเข้าถึงอีกที่เวลาที่ผู้ใช้ขอ ด้วยเหตุนี้ โปรดตรวจสอบว่าข้อมูลใดก็ตามที่รวมอยู่ในแคชที่ชัดเจนนั้น เหมาะสำหรับผู้ใช้ที่ส่งคำขอซึ่งมีแคชนั้น

  • หากต้องการใช้คำสั่งหรือเครื่องมือของระบบ (เช่น การดำเนินการโค้ด บริบท URL หรือการเชื่อมต่อแหล่งข้อมูลกับ Google Search) แคชเองจะต้อง มีการกำหนดค่าของคำสั่งหรือเครื่องมือเหล่านั้น โดยกำหนดค่าไม่ได้ใน เทมเพลตพรอมต์ของเซิร์ฟเวอร์หรือในคำขอพรอมต์ของแอป โปรดทราบว่าเทมเพลตพรอมต์ของเซิร์ฟเวอร์ยังไม่รองรับการเรียกใช้ฟังก์ชัน (หรือแชท) ดูรายละเอียดวิธีกำหนดค่าคำสั่งและเครื่องมือของระบบในแคชได้ที่ REST API ของ Vertex AI Gemini API

ขั้นตอนที่ 1: สร้างแคช

สร้างแคชโดยใช้ REST API ของ Vertex AI Gemini API โดยตรง

ตัวอย่างต่อไปนี้สร้างแคชที่ชัดเจนของไฟล์ PDF เป็นเนื้อหา

ไวยากรณ์:

PROJECT_ID="PROJECT_ID"
MODEL_ID="GEMINI_MODEL"  # for example, gemini-3-flash-preview
LOCATION="LOCATION"  # location for both the cache and the model
MIME_TYPE="MIME_TYPE"
CACHED_CONTENT_URI="CLOUD_STORAGE_FILE_URI"  # must be a Cloud Storage URI
CACHE_DISPLAY_NAME="CACHE_DISPLAY_NAME"  # optional
TTL="CACHE_TIME_TO_LIVE"  # optional (if not specified, defaults to 3600s)

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents \
-d @- <<EOF
{
  "model":"projects/${PROJECT_ID}/locations/${LOCATION}/publishers/google/models/${MODEL_ID}",
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "${MIME_TYPE}",
            "fileUri": "${CACHED_CONTENT_URI}"
          }
        }
      ]
    }
  ],
  "displayName": "${CACHE_DISPLAY_NAME}",
  "ttl": "${TTL}"
}
EOF

คำขอตัวอย่าง:

PROJECT_ID="my-amazing-app"
MODEL_ID="gemini-3-flash-preview"
LOCATION="global"
MIME_TYPE="application/pdf"
CACHED_CONTENT_URI="gs://cloud-samples-data/generative-ai/pdf/2312.11805v3.pdf"
CACHE_DISPLAY_NAME="Gemini - A Family of Highly Capable Multimodal Model (PDF)"
TTL="7200s"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents \
-d @- <<EOF
{
  "model":"projects/${PROJECT_ID}/locations/${LOCATION}/publishers/google/models/${MODEL_ID}",
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "${MIME_TYPE}",
            "fileUri": "${CACHED_CONTENT_URI}"
          }
        }
      ]
    }
  ],
  "displayName": "${CACHE_DISPLAY_NAME}",
  "ttl": "${TTL}"
}
EOF

ตัวอย่างคำตอบ:

การตอบกลับจะมีทรัพยากรที่สมบูรณ์ในตัวเอง name ซึ่งไม่ซ้ำกันทั่วโลกในแคช (โปรดทราบว่าส่วนสุดท้ายคือรหัสแคช) คุณจะต้องใช้ค่า name ทั้งหมดนี้ในขั้นตอนถัดไปของเวิร์กโฟลว์

{
  "name": "projects/861083271981/locations/global/cachedContents/4545031458888089601",
  "model": "projects/my-amazing-app/locations/global/publishers/google/models/gemini-3-flash-preview",
  "createTime": "2024-06-04T01:11:50.808236Z",
  "updateTime": "2024-06-04T01:11:50.808236Z",
  "expireTime": "2024-06-04T02:11:50.794542Z"
}

ขั้นตอนที่ 2: อ้างอิงแคชในเทมเพลตพรอมต์ของเซิร์ฟเวอร์

หลังจากสร้างแคชแล้ว ให้อ้างอิงแคชโดยใช้ name ภายในcachedContent พร็อพเพอร์ตี้ของ เทมเพลตพรอมต์ของเซิร์ฟเวอร์

โปรดตรวจสอบว่าคุณปฏิบัติตามข้อกำหนดต่อไปนี้เมื่อสร้าง เทมเพลตพรอมต์ฝั่งเซิร์ฟเวอร์

  • ใช้ทรัพยากร name ที่มีคุณสมบัติครบถ้วนจากการตอบกลับเมื่อคุณสร้าง แคช นี่ไม่ใช่ชื่อที่แสดงที่ไม่บังคับซึ่งคุณระบุในคำขอ

  • ตำแหน่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์ ต้องตรงกับตำแหน่งของแคช

  • หากต้องการใช้คำสั่งหรือเครื่องมือของระบบ จะต้องกำหนดค่าเป็นส่วนหนึ่งของแคช และไม่ใช่ส่วนหนึ่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์

ไวยากรณ์:

{{cachedContent name="YOUR_CACHE_RESOURCE_NAME"}}

{{role "user"}}
{{userPrompt}}

ตัวอย่าง

{{cachedContent name="projects/861083271981/locations/global/cachedContents/4545031458888089601"}}

{{role "user"}}
{{userPrompt}}

หรือค่าของพารามิเตอร์ name ในเทมเพลตพรอมต์ของเซิร์ฟเวอร์ อาจเป็นตัวแปรอินพุตแบบไดนามิก เช่น {{cachedContent name=someVariable}} ช่วยให้คุณรวม name ของแคชเป็นอินพุตสำหรับคำขอจาก แอปของคุณได้

ขั้นตอนที่ 3: อ้างอิงเทมเพลตพรอมต์ของเซิร์ฟเวอร์ในคำขอจากแอป

โปรดระมัดระวังเป็นอย่างยิ่งในเรื่องต่อไปนี้เมื่อเขียนคำขอ

  • ใช้ Vertex AI Gemini API เนื่องจากแคชสร้างขึ้นด้วยผู้ให้บริการ Gemini APIรายนั้น

  • ตำแหน่งที่คุณเข้าถึงโมเดล ในคำขอพรอมต์ของแอปต้องตรงกับตำแหน่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์ และแคช

Swift

// ...

// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
let model = FirebaseAI.firebaseAI(backend: .vertexAI(location: "LOCATION"))
                                  .templateGenerativeModel()

do {
    let response = try await model.generateContent(
        // Specify your template ID
        templateID: "TEMPLATE_ID"
    )
    if let text = response.text {
        print("Response Text: \(text)")
    }
} catch {
    print("An error occurred: \(error)")
}
print("\n")

Kotlin

// ...

// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
val model = Firebase.ai(backend = GenerativeBackend.vertexAI(location = "LOCATION"))
                        .templateGenerativeModel()

val response = model.generateContent(
    // Specify your template ID
    "TEMPLATE_ID",
)

val text = response.text
println(text)

Java

// ...

// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
TemplateGenerativeModel generativeModel = FirebaseAI.getInstance().templateGenerativeModel();

TemplateGenerativeModelFutures model = TemplateGenerativeModelFutures.from(generativeModel);

Future<GenerateContentResponse> response = model.generateContent(
    // Specify your template ID
    "TEMPLATE_ID"
);
addCallback(response,
      new FutureCallback<GenerateContentResponse>() {
          public void onSuccess(GenerateContentResponse result) {
            System.out.println(result.getText());
          }
          public void onFailure(Throwable t) {
            reportError(t);
          }
    }
executor);

Web

// ...

// Initialize the Vertex AI Gemini API backend service
// Make sure to specify the same location as the server prompt template and the cache
const ai = getAI(app, { backend: new VertexAIBackend('LOCATION') });

// Create a `TemplateGenerativeModel` instance
const model = getTemplateGenerativeModel(ai);

const result = await model.generateContent(
  // Specify your template ID
  'TEMPLATE_ID'
);

const response = result.response;
const text = response.text();

Dart

// ...

// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
var _model = FirebaseAI.vertexAI(location: 'LOCATION').templateGenerativeModel()

var response = await _model.generateContent(
        // Specify your template ID
        'TEMPLATE_ID',
      );

var text = response?.text;
print(text);

Unity

// ...

// Initialize the Vertex AI Gemini API backend service
// Make sure to specify the same location as the server prompt template and the cache
var firebaseAI = FirebaseAI.GetInstance(FirebaseAI.Backend.VertexAI(location: "LOCATION"));

// Create a `TemplateGenerativeModel` instance
var model = firebaseAI.GetTemplateGenerativeModel();

try
{
  var response = await model.GenerateContentAsync(
      // Specify your template ID
      "TEMPLATE_ID"
  );
  Debug.Log($"Response Text: {response.Text}");
}
catch (Exception e) {
  Debug.LogError($"An error occurred: {e.Message}");
}



จัดการแคชที่ชัดเจน

ส่วนนี้อธิบายการจัดการแคชเนื้อหาโจ่งแจ้ง รวมถึงวิธี แสดงแคชทั้งหมด รับข้อมูลเมตาเกี่ยวกับแคช อัปเดต TTL หรือเวลาหมดอายุของแคช และ ลบแคช

คุณจัดการแคชที่ชัดเจนได้โดยใช้ REST API ของ Vertex AI Gemini API

เมื่อสร้างแคชเนื้อหาโจ่งแจ้งแล้ว คุณจะเปลี่ยนแปลงสิ่งใดเกี่ยวกับแคชไม่ได้ ยกเว้น TTL หรือเวลาหมดอายุ

แสดงรายการแคชทั้งหมด

คุณแสดงรายการแคชที่ชัดเจนทั้งหมดที่พร้อมใช้งานสำหรับโปรเจ็กต์ได้ คำสั่งนี้ จะแสดงเฉพาะแคชในตำแหน่งที่ระบุ

PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"

curl \
-X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents

รับข้อมูลเมตาเกี่ยวกับแคช

คุณไม่สามารถเรียกดูหรือดูเนื้อหาที่แคชไว้จริงได้ อย่างไรก็ตาม คุณสามารถดึงข้อมูลข้อมูลเมตาเกี่ยวกับแคชที่ชัดเจน ซึ่งรวมถึง name, model, display_name, usage_metadata, create_time, update_time และ expire_time

คุณต้องระบุ CACHE_ID ซึ่งเป็นส่วนสุดท้ายในnameทรัพยากรที่มีคุณสมบัติครบถ้วนของแคช

PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID"  # the final segment in the `name` of the cache

curl \
-X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID}

อัปเดต TTL หรือเวลาหมดอายุของแคช

เมื่อสร้างแคชที่ชัดเจน คุณจะเลือกตั้งค่า ttl หรือ expire_time ก็ได้

  • ttl: TTL (Time to Live) สำหรับแคช ซึ่งก็คือจำนวนวินาทีและนาโนวินาทีที่แคชจะมีอายุหลังจากสร้างขึ้นหรือหลังจากอัปเดต ttl ก่อนที่แคชจะหมดอายุ เมื่อตั้งค่า ttl ระบบจะอัปเดต expireTime ของแคชโดยอัตโนมัติ

  • expire_time: Timestamp (เช่น 2024-06-30T09:00:00.000000Z) ที่ ระบุวันที่และเวลาแน่นอนเมื่อแคชหมดอายุ

หากไม่ได้ตั้งค่าใดค่าหนึ่ง TTL เริ่มต้นจะเป็น 1 ชั่วโมง ไม่มีขอบเขตขั้นต่ำหรือสูงสุดสำหรับ TTL

สำหรับแคชที่ชัดเจนที่มีอยู่ คุณสามารถเพิ่มหรืออัปเดต ttl หรือ expire_time ได้ คุณต้องระบุ CACHE_ID ซึ่งเป็นส่วนสุดท้ายในnameทรัพยากรที่มีคุณสมบัติครบถ้วนของแคช

อัปเดต ttl

PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID"  # the final segment in the `name` of the cache
TTL="CACHE_TIME_TO_LIVE"

curl \
-X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID} -d \
'{
  "ttl": "'$TTL'"
}'

อัปเดต expire_time

PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID"  # the final segment in the `name` of the cache
EXPIRE_TIME="ABSOLUTE_TIME_CACHE_EXPIRES"

curl \
-X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID} -d \
'{
  "expire_time": "'$EXPIRE_TIME'"
}'

ลบแคช

เมื่อไม่ต้องการใช้แคชที่ชัดเจนแล้ว คุณก็ลบแคชดังกล่าวได้

คุณต้องระบุ CACHE_ID ซึ่งเป็นส่วนสุดท้ายในnameทรัพยากรที่มีคุณสมบัติครบถ้วนของแคช

PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID"  # the final segment in the `name` of the cache

curl \
-X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID}



การกำหนดราคาสำหรับการแคชอย่างชัดเจน

การแคชอย่างชัดเจนเป็นฟีเจอร์แบบชำระเงินที่ออกแบบมาเพื่อลดต้นทุน ราคาจะขึ้นอยู่กับปัจจัยต่อไปนี้

  • โทเค็นอินพุตสำหรับการสร้างแคช: สำหรับทั้งการแคชโดยนัยและการแคชโดยชัดแจ้ง ระบบจะเรียกเก็บเงินจากคุณสำหรับโทเค็นอินพุตที่ใช้สร้างแคชในราคาโทเค็นอินพุตมาตรฐาน

  • การจัดเก็บแคช: สำหรับการแคชที่ชัดเจน จะมีค่าใช้จ่ายในการจัดเก็บตามระยะเวลาที่จัดเก็บแคชด้วย ไม่มีค่าใช้จ่ายในการจัดเก็บสำหรับการแคชโดยนัย ดูข้อมูลเพิ่มเติมได้ที่ ราคาสำหรับ Vertex AI Gemini API

  • การใช้เนื้อหาที่แคชไว้: การแคชอย่างชัดเจนช่วยให้มั่นใจได้ว่าจะได้รับส่วนลดเมื่อมีการอ้างอิงแคชอย่างชัดเจน ซึ่งหมายความว่าคุณจะได้รับส่วนลดสำหรับโทเค็นอินพุตเมื่อโทเค็นเหล่านั้นอ้างอิงแคชที่มีอยู่ สำหรับรุ่น Gemini 2.5 ขึ้นไป ส่วนลดนี้คือ 90%

ระบบจะระบุจำนวนโทเค็นในส่วนที่แคชไว้ของอินพุตในฟิลด์ cachedContentTokenCount ในข้อมูลเมตาของการตอบกลับ