统计 Gemini 模型的词元数

Gemini 模型以称为 token 的单位处理输入和输出。

token 可以是单个字符(例如 z)或整个字词(例如 cat)。长字词会被拆分为多个 token。模型使用的所有 token 的集合称为词汇,而将文本拆分为 token 的过程称为 词元化

对于 Gemini 模型,一个 token 大约相当于 4 个字符。 100 个 token 大约相当于 60-80 个英语单词。

每个模型具有在提示和回答中可以处理的 token 数上限 。了解提示的 token 数有助于您了解是否已超出此限制。此外,请求的费用部分取决于输入和输出 token 的数量,因此了解如何计算 token 数可能会有所帮助。

支持的模型

  • gemini-3.1-pro-preview
  • gemini-3-flash-preview
  • gemini-3.1-flash-lite-preview
  • gemini-3-pro-image-preview
  • gemini-3.1-flash-image-preview
  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite

计算 token 数的选项

Gemini API 的所有输入和输出内容(包括文本、图片 文件和其他非文本模态)都会进行词元化。以下是计算 token 数的选项:

仅检查 请求 的 token 数(在将请求发送给模型之前)。
在将请求发送给模型之前,使用请求的输入调用 countTokens此操作会返回:
  • total_tokens:仅 输入 的 token 数
检查 请求和回答 的 token 数。
访问usageMetadata属性在 回答对象上。这包括:
  • prompt_token_count:仅输入的 token 数
  • candidates_token_count:仅输出的 token 数 (不包括思考 token)
  • thoughts_token_count:用于生成回答的任何思考 token 的 token 数
  • total_token_count:输入和输出的 token 总数(包括任何思考 token)

在流式输出时,usageMetadata 属性仅 显示在流的最后一个块中。对于 中间块 ,该属性为 nil

请注意以下几点关于上述选项的事项:

  • 它们 不会 计算输入图片的数量或视频或音频输入文件中的秒数。不过,每种模态的 token 数将与这些值 相关
  • 输入 token 数包括提示(文本和任何输入文件)以及任何系统说明和工具。
  • 输出 token 数不包括任何思考 token;这些 token 在单独的字段中提供。
  • 请参阅本页稍后部分中针对每种请求类型的 其他信息
  • Gemini Live API 模型 支持 countTokens。此外,Firebase AI Logic 尚不 支持 Live API 模型回答中的 usageMetadata 属性,但很快就会推出相应支持!Live API

这些选项的价格

  • 调用 countTokens:调用 countTokens(Count Tokens API)是免费的。Count Tokens API 的最大配额为每分钟 3000 个请求 (RPM)。

  • 使用 usageMetadata 属性:此属性始终作为回答的一部分返回,并且不会产生任何 token 或费用。

其他信息

以下是在处理特定类型的请求时的一些其他信息。

计算文本输入 token 数

没有其他信息。

计算多轮(聊天)token 数

使用聊天时,请注意以下几点关于调用 countTokens 的事项:

  • 如果您使用聊天记录调用 countTokens,它会返回聊天中两个角色的 token 总数 (total_tokens)。
  • 如需了解下一个对话轮次的大小,您需要在调用 countTokens 时将其附加到历史记录中。

计算多模态输入 token 数

请注意以下几点关于使用多模态输入计算 token 数的事项:

  • 您可以选择单独对文本和文件调用 countTokens
  • 对于这两种 token 计数选项,无论您是以内嵌数据还是使用网址提供文件,您都会获得相同的 token 数。

图片输入文件

图片输入文件会根据其尺寸转换为 token:

  • 两个尺寸均小于或等于 384 像素的图片输入:每张图片计为 258 个 token。
  • 一个或两个尺寸较大的图片输入:每张图片都会根据需要剪裁并缩放为 768x768 像素的图块,然后每个图块计为 258 个 token。

视频和音频输入文件

视频和音频输入文件会按以下固定费率转换为 token:

  • 视频:每秒 263 个 token
  • 音频:每秒 32 个 token

文档(例如 PDF)输入文件

PDF 输入文件会被视为图片,因此 PDF 的每一页都会以与图片相同的方式进行 token 化。