Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Trang này được dịch bởi Cloud Translation API.

Đếm số lượng mã thông báo cho các mô hình Gemini

Các mô hình Gemini xử lý dữ liệu đầu vào và đầu ra theo các đơn vị được gọi là mã thông báo.

Mã thông báo có thể là các ký tự đơn như z hoặc toàn bộ từ như cat. Các từ dài được chia thành nhiều mã thông báo. Tập hợp tất cả các mã thông báo mà mô hình sử dụng được gọi là từ vựng và quy trình phân chia văn bản thành mã thông báo được gọi là mã hoá.

Đối với các mô hình Gemini, một mã thông báo tương đương với khoảng 4 ký tự. 100 mã thông báo tương đương với khoảng 60 đến 80 từ tiếng Anh.

Mỗi mô hình có một số lượng mã thông báo tối đa mà mô hình đó có thể xử lý trong một câu lệnh và câu trả lời. Khi biết số lượng mã thông báo của câu lệnh, bạn sẽ biết liệu mình có vượt quá giới hạn này hay không. Ngoài ra, chi phí của một yêu cầu được xác định một phần dựa trên số lượng mã thông báo đầu vào và đầu ra, vì vậy, việc biết cách đếm mã thông báo có thể hữu ích.

Xin lưu ý rằng các mô hình Gemini 1.0 và 1.5 cũng hỗ trợ số lượng và mức giá "ký tự có tính phí", nhưng vì tất cả các mô hình đó đều đã ngừng hoạt động hoặc sắp ngừng hoạt động, nên trang này không mô tả bất kỳ thông tin nào về ký tự có tính phí.

Các mô hình được hỗ trợ

gemini-3-pro-preview
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite
gemini-2.0-flash-001 (và bí danh được cập nhật tự động của miền này là gemini-2.0-flash)
gemini-2.0-flash-lite-001 (và bí danh được cập nhật tự động của miền này là gemini-2.0-flash-lite)
gemini-2.0-flash-preview-image-generation

Các lựa chọn để tính mã thông báo

Tất cả dữ liệu đầu vào và đầu ra cho Gemini API đều được mã hoá, bao gồm cả văn bản, tệp hình ảnh và các phương thức không phải văn bản khác. Sau đây là các lựa chọn để tính mã thông báo:

Kiểm tra số lượng mã thông báo cho chỉ các yêu cầu (trước khi gửi các yêu cầu đó đến mô hình).

Gọi countTokens bằng dữ liệu đầu vào của yêu cầu trước khi gửi yêu cầu đó đến mô hình. Thao tác này sẽ trả về:

total_tokens: số lượng mã thông báo của chỉ đầu vào

Kiểm tra số lượng mã thông báo cho cả yêu cầu và phản hồi của bạn.

Sử dụng thuộc tính usageMetadata trên đối tượng phản hồi. Trong đó có:

prompt_token_count: số lượng mã thông báo của dữ liệu đầu vào
candidates_token_count: chỉ số lượng mã thông báo của đầu ra (không bao gồm mã thông báo tư duy)
thoughts_token_count: số lượng mã thông báo tư duy được dùng để tạo phản hồi
total_token_count: tổng số mã thông báo cho cả đầu vào và đầu ra (bao gồm mọi mã thông báo tư duy)

Khi truyền trực tuyến đầu ra, thuộc tính usageMetadata chỉ xuất hiện trên đoạn cuối cùng của luồng. Đây là nil cho các khối trung gian.

Lưu ý những điểm sau về các lựa chọn nêu trên:

Chúng sẽ không tính số lượng hình ảnh đầu vào hoặc số giây trong tệp đầu vào video hoặc âm thanh. Tuy nhiên, số lượng mã thông báo cho mỗi phương thức này sẽ tương quan với các giá trị này.
Số lượng mã thông báo đầu vào bao gồm câu lệnh (văn bản và mọi tệp đầu vào), cũng như mọi chỉ dẫn và công cụ hệ thống.
Số lượng mã thông báo đầu ra không bao gồm bất kỳ mã thông báo nào về suy nghĩ; những mã thông báo đó được cung cấp trong một trường riêng.
Hãy xem thông tin bổ sung dành riêng cho từng loại yêu cầu ở phần sau của trang này.

Giá cho các lựa chọn này

Gọi countTokens: Bạn không mất phí khi gọi countTokens (Count Tokens API). Hạn mức tối đa cho Count Tokens API là 3.000 yêu cầu mỗi phút (RPM).
Sử dụng thuộc tính usageMetadata: Thuộc tính này luôn được trả về trong phản hồi và không phát sinh mã thông báo hoặc phí.

Thông tin khác

Sau đây là một số thông tin bổ sung khi xử lý các loại yêu cầu cụ thể.

Đếm số lượng mã thông báo văn bản đầu vào

Không có thông tin bổ sung.

Đếm mã thông báo nhiều lượt (trò chuyện)

Lưu ý những điều sau khi gọi countTokens trong lúc sử dụng tính năng trò chuyện:

Nếu bạn gọi countTokens bằng nhật ký trò chuyện, thì hàm này sẽ trả về tổng số mã thông báo từ cả hai vai trò trong cuộc trò chuyện (total_tokens).
Để biết lượt trò chuyện tiếp theo của bạn sẽ lớn đến mức nào, bạn cần thêm lượt trò chuyện đó vào nhật ký khi gọi countTokens.

Đếm mã thông báo đầu vào đa phương thức

Lưu ý những điểm sau đây về việc đếm mã thông báo bằng dữ liệu đầu vào đa phương thức:

Bạn có thể gọi countTokens trên văn bản và tệp riêng biệt (không bắt buộc).
Đối với cả hai lựa chọn đếm mã thông báo, bạn sẽ nhận được cùng một số lượng mã thông báo cho dù bạn cung cấp tệp dưới dạng dữ liệu nội tuyến hay sử dụng URL của tệp.

Tệp đầu vào hình ảnh

Các tệp đầu vào hình ảnh được chuyển đổi thành mã thông báo dựa trên kích thước của chúng:

Đầu vào hình ảnh có cả hai chiều đều nhỏ hơn hoặc bằng 384 pixel: mỗi hình ảnh được tính là 258 mã thông báo.
Đầu vào hình ảnh có kích thước lớn hơn ở một hoặc cả hai chiều: mỗi hình ảnh được cắt và điều chỉnh tỷ lệ khi cần thành các ô có kích thước 768x768 pixel, sau đó mỗi ô được tính là 258 mã thông báo.

Tệp đầu vào video và âm thanh

Các tệp đầu vào video và âm thanh được chuyển đổi thành mã thông báo theo các tốc độ cố định sau:

Video: 263 mã thông báo mỗi giây
Âm thanh: 32 mã thông báo mỗi giây

Tệp đầu vào là tài liệu (chẳng hạn như tệp PDF)

Tệp đầu vào PDF được coi là hình ảnh, vì vậy mỗi trang của tệp PDF đều được mã hoá theo cách tương tự như hình ảnh.