Các mô hình Gemini xử lý dữ liệu đầu vào và đầu ra theo các đơn vị được gọi là mã thông báo.
Mã thông báo có thể là các ký tự đơn như z
hoặc toàn bộ từ như cat
. Các từ dài được chia thành nhiều mã thông báo. Tập hợp tất cả các mã thông báo mà mô hình sử dụng được gọi là từ vựng và quy trình phân tách văn bản thành mã thông báo được gọi là mã hoá.
Đối với các mô hình Gemini, một mã thông báo tương đương với khoảng 4 ký tự. 100 mã thông báo tương đương với khoảng 60 đến 80 từ tiếng Anh.
Mỗi mô hình có một số lượng mã thông báo tối đa mà mô hình đó có thể xử lý trong một câu lệnh và câu trả lời. Khi biết số lượng mã thông báo của câu lệnh, bạn sẽ biết liệu mình có vượt quá giới hạn này hay không. Ngoài ra, chi phí của một yêu cầu được xác định một phần dựa trên số lượng mã thông báo đầu vào và đầu ra, vì vậy, việc biết cách đếm mã thông báo có thể hữu ích.
Xin lưu ý rằng các mô hình Gemini 1.0 và 1.5 cũng hỗ trợ số lượng và mức giá "ký tự có tính phí", nhưng vì tất cả các mô hình đó đều đã ngừng hoạt động hoặc sắp ngừng hoạt động, nên trang này không mô tả bất kỳ thông tin nào về ký tự có tính phí.
Các mô hình được hỗ trợ
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite
gemini-2.0-flash-001
(và bí danh được cập nhật tự động của miền này làgemini-2.0-flash
)gemini-2.0-flash-lite-001
(và bí danh được cập nhật tự động của miền này làgemini-2.0-flash-lite
)gemini-2.0-flash-preview-image-generation
Các lựa chọn để tính mã thông báo
Tất cả dữ liệu đầu vào và đầu ra cho Gemini API đều được mã hoá, bao gồm cả văn bản, tệp hình ảnh và các phương thức không phải văn bản khác. Sau đây là các lựa chọn để tính số lượng mã thông báo:
- Kiểm tra số lượng mã thông báo cho chỉ các yêu cầu (trước khi gửi các yêu cầu đó đến mô hình).
- Gọi
countTokens
bằng dữ liệu đầu vào của yêu cầu trước khi gửi yêu cầu đó đến mô hình. Thao tác này sẽ trả về:total_tokens
: số lượng mã thông báo của chỉ đầu vào
- Kiểm tra số lượng mã thông báo cho cả yêu cầu và phản hồi của bạn.
- Sử dụng thuộc tính
usageMetadata
trên đối tượng phản hồi. Trong đó có:prompt_token_count
: số lượng mã thông báo của dữ liệu đầu vàocandidates_token_count
: chỉ số lượng mã thông báo của đầu ra (không bao gồm mã thông báo tư duy)thoughts_token_count
: số lượng mã thông báo tư duy được dùng để tạo phản hồitotal_token_count
: tổng số mã thông báo cho cả đầu vào và đầu ra (bao gồm mọi mã thông báo tư duy)
Khi truyền trực tuyến đầu ra, thuộc tính
usageMetadata
chỉ xuất hiện trên đoạn cuối cùng của luồng. Đây lànil
cho các khối trung gian.
Lưu ý những điểm sau về các lựa chọn nêu trên:
- Chúng sẽ không tính số lượng hình ảnh đầu vào hoặc số giây trong tệp đầu vào video hoặc âm thanh. Tuy nhiên, số lượng mã thông báo cho mỗi phương thức này sẽ tương quan với các giá trị này.
- Số lượng mã thông báo đầu vào bao gồm câu lệnh (văn bản và mọi tệp đầu vào), cũng như mọi hướng dẫn và công cụ của hệ thống.
- Số lượng mã thông báo đầu ra không bao gồm bất kỳ mã thông báo nào liên quan đến suy nghĩ; những mã thông báo đó được cung cấp trong một trường riêng biệt.
- Hãy xem thông tin bổ sung dành riêng cho từng loại yêu cầu ở phần sau của trang này.
Giá cho các lựa chọn này
Gọi
countTokens
: Bạn không mất phí khi gọicountTokens
(Count Tokens API). Hạn mức tối đa cho Count Tokens API là 3.000 yêu cầu mỗi phút (RPM).Sử dụng thuộc tính
usageMetadata
: Thuộc tính này luôn được trả về trong phản hồi và không phát sinh mã thông báo hoặc phí.
Thông tin khác
Sau đây là một số thông tin bổ sung khi bạn làm việc với các loại yêu cầu cụ thể.
Đếm số lượng mã thông báo văn bản đầu vào
Không có thông tin bổ sung.
Đếm mã thông báo nhiều lượt (trò chuyện)
Lưu ý những điều sau khi gọi countTokens
trong lúc sử dụng tính năng trò chuyện:
- Nếu bạn gọi
countTokens
bằng nhật ký trò chuyện, thì hàm này sẽ trả về tổng số mã thông báo từ cả hai vai trò trong cuộc trò chuyện (total_tokens
). - Để biết lượt trò chuyện tiếp theo của bạn sẽ lớn đến mức nào, bạn cần thêm lượt trò chuyện đó vào nhật ký khi gọi
countTokens
.
Đếm mã thông báo đầu vào đa phương thức
Lưu ý những điểm sau đây về việc đếm mã thông báo bằng dữ liệu đầu vào đa phương thức:
- Bạn có thể gọi
countTokens
trên văn bản và tệp riêng biệt (không bắt buộc). - Đối với cả hai lựa chọn đếm mã thông báo, bạn sẽ nhận được cùng một số lượng mã thông báo cho dù bạn cung cấp tệp dưới dạng dữ liệu nội tuyến hay sử dụng URL của tệp.
Tệp đầu vào hình ảnh
Các tệp đầu vào hình ảnh được chuyển đổi thành mã thông báo dựa trên kích thước của chúng:
- Đầu vào hình ảnh có cả hai chiều đều nhỏ hơn hoặc bằng 384 pixel: mỗi hình ảnh được tính là 258 mã thông báo.
- Đầu vào hình ảnh có kích thước lớn hơn ở một hoặc cả hai chiều: mỗi hình ảnh được cắt và điều chỉnh tỷ lệ khi cần thành các ô có kích thước 768x768 pixel, sau đó mỗi ô được tính là 258 mã thông báo.
Tệp đầu vào video và âm thanh
Các tệp đầu vào video và âm thanh được chuyển đổi thành mã thông báo theo các mức cố định sau:
- Video: 263 mã thông báo mỗi giây
- Âm thanh: 32 mã thông báo mỗi giây
Tệp đầu vào là tài liệu (chẳng hạn như tệp PDF)
Tệp đầu vào PDF được coi là hình ảnh, vì vậy mỗi trang của tệp PDF đều được mã hoá theo cách tương tự như hình ảnh.