สำหรับฟีเจอร์ AI คุณอาจส่งโทเค็นอินพุต (เนื้อหา) เดียวกันซ้ำๆ ไปยังโมเดล สำหรับกรณีการใช้งานเหล่านี้ คุณสามารถแคชเนื้อหานี้แทนได้ ซึ่งหมายความว่าคุณส่งเนื้อหาไปยังโมเดลครั้งเดียว จัดเก็บไว้ และอ้างอิง ในคำขอที่ตามมา
การแคชบริบทช่วยลดเวลาในการตอบสนองและค่าใช้จ่ายสำหรับงานที่ทำซ้ำๆ ซึ่งเกี่ยวข้องกับเนื้อหาจำนวนมากได้อย่างมาก เช่น ข้อความจำนวนมาก ไฟล์เสียง หรือไฟล์วิดีโอ กรณีการใช้งานที่พบบ่อยบางส่วนสำหรับเนื้อหาที่แคช ได้แก่ เอกสารลักษณะตัวตนโดยละเอียด ฐานของโค้ด หรือคู่มือ
Gemini มีกลไกการแคช 2 แบบที่แตกต่างกัน ดังนี้
การแคชโดยนัย: เปิดใช้โดยอัตโนมัติในโมเดลส่วนใหญ่ ไม่รับประกันการประหยัดต้นทุน
การแคชอย่างชัดเจน: เปิดใช้โดยไม่บังคับและด้วยตนเองได้ในโมเดลส่วนใหญ่ ซึ่งมักจะช่วย ประหยัดค่าใช้จ่าย
การแคชอย่างชัดเจนมีประโยชน์ในกรณีที่คุณต้องการรับประกันการประหยัดค่าใช้จ่ายมากขึ้น แต่ต้องมีการทำงานเพิ่มเติมของนักพัฒนาซอฟต์แวร์
สําหรับการแคชทั้งโดยนัยและโดยชัดแจ้ง ฟิลด์ cachedContentTokenCount ในข้อมูลเมตาของการตอบกลับ
จะระบุจํานวนโทเค็นในส่วนที่แคชของอินพุต
สำหรับการแคชอย่างชัดเจน โปรดตรวจสอบข้อมูลราคาที่ด้านล่างของหน้านี้
โมเดลที่รองรับ
ระบบรองรับการแคชเมื่อใช้โมเดลต่อไปนี้
gemini-3.1-pro-previewgemini-3-flash-previewgemini-3.1-flash-lite-previewgemini-2.5-progemini-2.5-flashgemini-2.5-flash-lite
โมเดลที่สร้างสื่อ (เช่น โมเดล Nana Banana อย่าง
gemini-3.1-flash-image-preview) ไม่รองรับการแคชบริบท
ขีดจำกัดขนาดของเนื้อหาที่แคชไว้
แต่ละโมเดลมีข้อกำหนดด้านจำนวนโทเค็นขั้นต่ำสำหรับเนื้อหาที่แคชไว้ โดยค่าสูงสุดจะขึ้นอยู่กับหน้าต่างบริบทของโมเดล
- Gemini โมเดล Pro: โทเค็นขั้นต่ำ 4096 รายการ
- Gemini โมเดล Flash: โทเค็นขั้นต่ำ 1024 รายการ
นอกจากนี้ ขนาดสูงสุดของเนื้อหาที่คุณแคชโดยใช้ BLOB หรือข้อความคือ 10 MB
การแคชโดยนัย
การแคชโดยนัยจะเปิดใช้โดยค่าเริ่มต้นและพร้อมใช้งานสำหรับโมเดล Gemini ส่วนใหญ่
Google จะส่งต่อส่วนลดค่าใช้จ่ายโดยอัตโนมัติหากคำขอของคุณตรงกับเนื้อหาที่แคชไว้ วิธีเพิ่มโอกาสที่คำขอจะใช้ การแคชโดยนัยมีดังนี้
- ลองใส่เนื้อหาขนาดใหญ่และเนื้อหาทั่วไปไว้ที่จุดเริ่มต้นของพรอมต์
- ลองส่งคำขอที่มีคำนำหน้าที่คล้ายกันในระยะเวลาอันสั้น
ระบบจะระบุจำนวนโทเค็นในส่วนที่แคชไว้ของอินพุตในฟิลด์
cachedContentTokenCount ในข้อมูลเมตาของการตอบกลับ
การแคชที่ชัดเจน
การแคชอย่างชัดเจนจะไม่ได้เปิดใช้โดยค่าเริ่มต้น และเป็นความสามารถที่ไม่บังคับ ของโมเดล Gemini
วิธีตั้งค่าและทำงานกับแคชเนื้อหาโจ่งแจ้งมีดังนี้
จัดการแคชที่ชัดเจน ซึ่งรวมถึง
โปรดทราบว่าแคชเนื้อหาที่อาจไม่เหมาะสมจะโต้ตอบกับการแคชโดยนัย ซึ่งอาจ ทำให้เกิดการแคชเพิ่มเติมที่นอกเหนือจากเนื้อหาที่แคชอย่างชัดเจน คุณ ป้องกันการเก็บรักษาข้อมูลแคชได้โดยการปิดใช้การแคชโดยนัยและไม่สร้าง แคชที่ชัดเจน ดูข้อมูลเพิ่มเติมได้ที่ เปิดและปิดใช้การแคช
สร้างและใช้แคชที่ชัดเจน
การสร้างและใช้แคชเนื้อหาโจ่งแจ้งต้องมีสิ่งต่อไปนี้
ข้อมูลสำคัญเกี่ยวกับการสร้างและการใช้แคชที่ชัดเจน
แคชต้องสอดคล้องกับคำขอพรอมต์ของแอปและเทมเพลตพรอมต์ของเซิร์ฟเวอร์
แคชจะใช้ได้เฉพาะกับGemini APIของผู้ให้บริการ คำขอพรอมต์ของแอปต้องใช้ผู้ให้บริการเดียวกัน
สำหรับ Firebase AI Logic เราขอแนะนำอย่างยิ่งให้ใช้แคชเนื้อหาที่อาจไม่เหมาะสม เฉพาะกับ Vertex AI Gemini API ข้อมูลและ ตัวอย่างทั้งหมดในหน้านี้เป็นข้อมูลเฉพาะสำหรับผู้ให้บริการ Gemini API รายนั้นแคชมีไว้สำหรับGeminiรุ่นใดรุ่นหนึ่งโดยเฉพาะ คำขอพรอมต์ของแอปต้องใช้โมเดลเดียวกัน
แคชจะเฉพาะเจาะจงกับสถานที่เมื่อใช้ Vertex AI Gemini API
ตำแหน่งของแคชที่ชัดเจนต้องตรงกับ ตำแหน่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์ และ ตำแหน่งที่คุณเข้าถึงโมเดล ในคำขอพรอมต์ของแอป
นอกจากนี้ โปรดทราบข้อจำกัดและข้อกำหนดต่อไปนี้สำหรับการแคชอย่างชัดแจ้ง
เมื่อสร้างแคชที่ชัดเจนแล้ว คุณจะเปลี่ยนแปลงสิ่งใดเกี่ยวกับแคชไม่ได้ ยกเว้น TTL หรือเวลาหมดอายุ
คุณสามารถแคช ประเภท MIME ของไฟล์อินพุตที่รองรับ หรือแม้แต่ข้อความที่ระบุไว้ในคำขอสร้างแคช
หากต้องการรวมไฟล์ไว้ในแคช คุณต้องระบุไฟล์เป็น Cloud Storage URI ต้องไม่ใช่ URL ของเบราว์เซอร์หรือ URL ของ YouTube
นอกจากนี้ ระบบจะตรวจสอบการจํากัดการเข้าถึงไฟล์ที่ เวลาสร้างแคช และจะไม่ตรวจสอบการจํากัดการเข้าถึงอีกที่เวลาที่ผู้ใช้ขอ ด้วยเหตุนี้ โปรดตรวจสอบว่าข้อมูลใดก็ตามที่รวมอยู่ในแคชที่ชัดเจนนั้น เหมาะสำหรับผู้ใช้ที่ส่งคำขอซึ่งมีแคชนั้น
หากต้องการใช้คำสั่งหรือเครื่องมือของระบบ (เช่น การดำเนินการโค้ด บริบท URL หรือการเชื่อมต่อแหล่งข้อมูลกับ Google Search) แคชเองจะต้อง มีการกำหนดค่าของคำสั่งหรือเครื่องมือเหล่านั้น โดยกำหนดค่าไม่ได้ใน เทมเพลตพรอมต์ของเซิร์ฟเวอร์หรือในคำขอพรอมต์ของแอป โปรดทราบว่าเทมเพลตพรอมต์ของเซิร์ฟเวอร์ยังไม่รองรับการเรียกใช้ฟังก์ชัน (หรือแชท) ดูรายละเอียดวิธีกำหนดค่าคำสั่งและเครื่องมือของระบบในแคชได้ที่ REST API ของ Vertex AI Gemini API
ขั้นตอนที่ 1: สร้างแคช
สร้างแคชโดยใช้ REST API ของ Vertex AI Gemini API โดยตรง
ตัวอย่างต่อไปนี้สร้างแคชที่ชัดเจนของไฟล์ PDF เป็นเนื้อหา
ไวยากรณ์:
PROJECT_ID="PROJECT_ID"
MODEL_ID="GEMINI_MODEL" # for example, gemini-3-flash-preview
LOCATION="LOCATION" # location for both the cache and the model
MIME_TYPE="MIME_TYPE"
CACHED_CONTENT_URI="CLOUD_STORAGE_FILE_URI" # must be a Cloud Storage URI
CACHE_DISPLAY_NAME="CACHE_DISPLAY_NAME" # optional
TTL="CACHE_TIME_TO_LIVE" # optional (if not specified, defaults to 3600s)
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents \
-d @- <<EOF
{
"model":"projects/${PROJECT_ID}/locations/${LOCATION}/publishers/google/models/${MODEL_ID}",
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "${MIME_TYPE}",
"fileUri": "${CACHED_CONTENT_URI}"
}
}
]
}
],
"displayName": "${CACHE_DISPLAY_NAME}",
"ttl": "${TTL}"
}
EOF
คำขอตัวอย่าง:
PROJECT_ID="my-amazing-app"
MODEL_ID="gemini-3-flash-preview"
LOCATION="global"
MIME_TYPE="application/pdf"
CACHED_CONTENT_URI="gs://cloud-samples-data/generative-ai/pdf/2312.11805v3.pdf"
CACHE_DISPLAY_NAME="Gemini - A Family of Highly Capable Multimodal Model (PDF)"
TTL="7200s"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents \
-d @- <<EOF
{
"model":"projects/${PROJECT_ID}/locations/${LOCATION}/publishers/google/models/${MODEL_ID}",
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "${MIME_TYPE}",
"fileUri": "${CACHED_CONTENT_URI}"
}
}
]
}
],
"displayName": "${CACHE_DISPLAY_NAME}",
"ttl": "${TTL}"
}
EOF
ตัวอย่างคำตอบ:
การตอบกลับจะมีทรัพยากรที่สมบูรณ์ในตัวเอง name ซึ่งไม่ซ้ำกันทั่วโลกในแคช (โปรดทราบว่าส่วนสุดท้ายคือรหัสแคช) คุณจะต้องใช้ค่า name ทั้งหมดนี้ในขั้นตอนถัดไปของเวิร์กโฟลว์
{
"name": "projects/861083271981/locations/global/cachedContents/4545031458888089601",
"model": "projects/my-amazing-app/locations/global/publishers/google/models/gemini-3-flash-preview",
"createTime": "2024-06-04T01:11:50.808236Z",
"updateTime": "2024-06-04T01:11:50.808236Z",
"expireTime": "2024-06-04T02:11:50.794542Z"
}
ขั้นตอนที่ 2: อ้างอิงแคชในเทมเพลตพรอมต์ของเซิร์ฟเวอร์
หลังจากสร้างแคชแล้ว ให้อ้างอิงแคชโดยใช้ name ภายในcachedContent
พร็อพเพอร์ตี้ของ
เทมเพลตพรอมต์ของเซิร์ฟเวอร์
โปรดตรวจสอบว่าคุณปฏิบัติตามข้อกำหนดต่อไปนี้เมื่อสร้าง เทมเพลตพรอมต์ฝั่งเซิร์ฟเวอร์
ใช้ทรัพยากร
nameที่มีคุณสมบัติครบถ้วนจากการตอบกลับเมื่อคุณสร้าง แคช นี่ไม่ใช่ชื่อที่แสดงที่ไม่บังคับซึ่งคุณระบุในคำขอตำแหน่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์ ต้องตรงกับตำแหน่งของแคช
หากต้องการใช้คำสั่งหรือเครื่องมือของระบบ จะต้องกำหนดค่าเป็นส่วนหนึ่งของแคช และไม่ใช่ส่วนหนึ่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์
ไวยากรณ์:
{{cachedContent name="YOUR_CACHE_RESOURCE_NAME"}}
{{role "user"}}
{{userPrompt}}
ตัวอย่าง
{{cachedContent name="projects/861083271981/locations/global/cachedContents/4545031458888089601"}}
{{role "user"}}
{{userPrompt}}
หรือค่าของพารามิเตอร์ name ในเทมเพลตพรอมต์ของเซิร์ฟเวอร์
อาจเป็นตัวแปรอินพุตแบบไดนามิก
เช่น
{{cachedContent name=someVariable}}name ของแคชเป็นอินพุตสำหรับคำขอจาก
แอปของคุณได้
ขั้นตอนที่ 3: อ้างอิงเทมเพลตพรอมต์ของเซิร์ฟเวอร์ในคำขอจากแอป
โปรดระมัดระวังเป็นอย่างยิ่งในเรื่องต่อไปนี้เมื่อเขียนคำขอ
ใช้ Vertex AI Gemini API เนื่องจากแคชสร้างขึ้นด้วยผู้ให้บริการ Gemini APIรายนั้น
ตำแหน่งที่คุณเข้าถึงโมเดล ในคำขอพรอมต์ของแอปต้องตรงกับตำแหน่งของเทมเพลตพรอมต์ของเซิร์ฟเวอร์ และแคช
Swift
// ...
// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
let model = FirebaseAI.firebaseAI(backend: .vertexAI(location: "LOCATION"))
.templateGenerativeModel()
do {
let response = try await model.generateContent(
// Specify your template ID
templateID: "TEMPLATE_ID"
)
if let text = response.text {
print("Response Text: \(text)")
}
} catch {
print("An error occurred: \(error)")
}
print("\n")
Kotlin
// ...
// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
val model = Firebase.ai(backend = GenerativeBackend.vertexAI(location = "LOCATION"))
.templateGenerativeModel()
val response = model.generateContent(
// Specify your template ID
"TEMPLATE_ID",
)
val text = response.text
println(text)
Java
// ...
// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
TemplateGenerativeModel generativeModel = FirebaseAI.getInstance().templateGenerativeModel();
TemplateGenerativeModelFutures model = TemplateGenerativeModelFutures.from(generativeModel);
Future<GenerateContentResponse> response = model.generateContent(
// Specify your template ID
"TEMPLATE_ID"
);
addCallback(response,
new FutureCallback<GenerateContentResponse>() {
public void onSuccess(GenerateContentResponse result) {
System.out.println(result.getText());
}
public void onFailure(Throwable t) {
reportError(t);
}
}
executor);
Web
// ...
// Initialize the Vertex AI Gemini API backend service
// Make sure to specify the same location as the server prompt template and the cache
const ai = getAI(app, { backend: new VertexAIBackend('LOCATION') });
// Create a `TemplateGenerativeModel` instance
const model = getTemplateGenerativeModel(ai);
const result = await model.generateContent(
// Specify your template ID
'TEMPLATE_ID'
);
const response = result.response;
const text = response.text();
Dart
// ...
// Initialize the Vertex AI Gemini API backend service
// Create a `TemplateGenerativeModel` instance
// Make sure to specify the same location as the server prompt template and the cache
var _model = FirebaseAI.vertexAI(location: 'LOCATION').templateGenerativeModel()
var response = await _model.generateContent(
// Specify your template ID
'TEMPLATE_ID',
);
var text = response?.text;
print(text);
Unity
// ...
// Initialize the Vertex AI Gemini API backend service
// Make sure to specify the same location as the server prompt template and the cache
var firebaseAI = FirebaseAI.GetInstance(FirebaseAI.Backend.VertexAI(location: "LOCATION"));
// Create a `TemplateGenerativeModel` instance
var model = firebaseAI.GetTemplateGenerativeModel();
try
{
var response = await model.GenerateContentAsync(
// Specify your template ID
"TEMPLATE_ID"
);
Debug.Log($"Response Text: {response.Text}");
}
catch (Exception e) {
Debug.LogError($"An error occurred: {e.Message}");
}
จัดการแคชที่ชัดเจน
ส่วนนี้อธิบายการจัดการแคชเนื้อหาโจ่งแจ้ง รวมถึงวิธี แสดงแคชทั้งหมด รับข้อมูลเมตาเกี่ยวกับแคช อัปเดต TTL หรือเวลาหมดอายุของแคช และ ลบแคช
คุณจัดการแคชที่ชัดเจนได้โดยใช้ REST API ของ Vertex AI Gemini API
เมื่อสร้างแคชเนื้อหาโจ่งแจ้งแล้ว คุณจะเปลี่ยนแปลงสิ่งใดเกี่ยวกับแคชไม่ได้ ยกเว้น TTL หรือเวลาหมดอายุ
แสดงรายการแคชทั้งหมด
คุณแสดงรายการแคชที่ชัดเจนทั้งหมดที่พร้อมใช้งานสำหรับโปรเจ็กต์ได้ คำสั่งนี้ จะแสดงเฉพาะแคชในตำแหน่งที่ระบุ
PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
curl \
-X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents
รับข้อมูลเมตาเกี่ยวกับแคช
คุณไม่สามารถเรียกดูหรือดูเนื้อหาที่แคชไว้จริงได้ อย่างไรก็ตาม คุณสามารถดึงข้อมูลข้อมูลเมตาเกี่ยวกับแคชที่ชัดเจน ซึ่งรวมถึง name, model,
display_name, usage_metadata, create_time, update_time และ
expire_time
คุณต้องระบุ CACHE_ID ซึ่งเป็นส่วนสุดท้ายในnameทรัพยากรที่มีคุณสมบัติครบถ้วนของแคช
PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache
curl \
-X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID}
อัปเดต TTL หรือเวลาหมดอายุของแคช
เมื่อสร้างแคชที่ชัดเจน คุณจะเลือกตั้งค่า ttl หรือ
expire_time ก็ได้
ttl: TTL (Time to Live) สำหรับแคช ซึ่งก็คือจำนวนวินาทีและนาโนวินาทีที่แคชจะมีอายุหลังจากสร้างขึ้นหรือหลังจากอัปเดตttlก่อนที่แคชจะหมดอายุ เมื่อตั้งค่าttlระบบจะอัปเดตexpireTimeของแคชโดยอัตโนมัติexpire_time:Timestamp(เช่น2024-06-30T09:00:00.000000Z) ที่ ระบุวันที่และเวลาแน่นอนเมื่อแคชหมดอายุ
หากไม่ได้ตั้งค่าใดค่าหนึ่ง TTL เริ่มต้นจะเป็น 1 ชั่วโมง ไม่มีขอบเขตขั้นต่ำหรือสูงสุดสำหรับ TTL
สำหรับแคชที่ชัดเจนที่มีอยู่ คุณสามารถเพิ่มหรืออัปเดต ttl หรือ expire_time ได้
คุณต้องระบุ CACHE_ID ซึ่งเป็นส่วนสุดท้ายในnameทรัพยากรที่มีคุณสมบัติครบถ้วนของแคช
อัปเดต ttl
PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache
TTL="CACHE_TIME_TO_LIVE"
curl \
-X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID} -d \
'{
"ttl": "'$TTL'"
}'
อัปเดต expire_time
PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache
EXPIRE_TIME="ABSOLUTE_TIME_CACHE_EXPIRES"
curl \
-X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID} -d \
'{
"expire_time": "'$EXPIRE_TIME'"
}'
ลบแคช
เมื่อไม่ต้องการใช้แคชที่ชัดเจนแล้ว คุณก็ลบแคชดังกล่าวได้
คุณต้องระบุ CACHE_ID ซึ่งเป็นส่วนสุดท้ายในnameทรัพยากรที่มีคุณสมบัติครบถ้วนของแคช
PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
CACHE_ID="CACHE_ID" # the final segment in the `name` of the cache
curl \
-X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/cachedContents/${CACHE_ID}
การกำหนดราคาสำหรับการแคชอย่างชัดเจน
การแคชอย่างชัดเจนเป็นฟีเจอร์แบบชำระเงินที่ออกแบบมาเพื่อลดต้นทุน ราคาจะขึ้นอยู่กับปัจจัยต่อไปนี้
โทเค็นอินพุตสำหรับการสร้างแคช: สำหรับทั้งการแคชโดยนัยและการแคชโดยชัดแจ้ง ระบบจะเรียกเก็บเงินจากคุณสำหรับโทเค็นอินพุตที่ใช้สร้างแคชในราคาโทเค็นอินพุตมาตรฐาน
การจัดเก็บแคช: สำหรับการแคชที่ชัดเจน จะมีค่าใช้จ่ายในการจัดเก็บตามระยะเวลาที่จัดเก็บแคชด้วย ไม่มีค่าใช้จ่ายในการจัดเก็บสำหรับการแคชโดยนัย ดูข้อมูลเพิ่มเติมได้ที่ ราคาสำหรับ Vertex AI Gemini API
การใช้เนื้อหาที่แคชไว้: การแคชอย่างชัดเจนช่วยให้มั่นใจได้ว่าจะได้รับส่วนลดเมื่อมีการอ้างอิงแคชอย่างชัดเจน ซึ่งหมายความว่าคุณจะได้รับส่วนลดสำหรับโทเค็นอินพุตเมื่อโทเค็นเหล่านั้นอ้างอิงแคชที่มีอยู่ สำหรับรุ่น Gemini 2.5 ขึ้นไป ส่วนลดนี้คือ 90%
ระบบจะระบุจำนวนโทเค็นในส่วนที่แคชไว้ของอินพุตในฟิลด์
cachedContentTokenCount ในข้อมูลเมตาของการตอบกลับ