Gemini 模型系列被视为多模态模型,因为它们能够处理来自多种模态的信息,包括图片、视频和文本。例如,您可以向 Gemini 模型发送一张饼干照片,让它为您提供一些制作这些饼干的食谱。
提示 | 回答 |
告诉我这些 Cookie 的配方。 ![]() |
**INGREDIENTS** - 1 c. (2 枚)无盐黄油、软化 - 3/4 c 细粒糖 - 3/4 c 棕色糖,包装 - 1 匙。香草提取物 - 2 大鸡蛋 - 2 1/4 c 通用面粉 - 1 茶匙小苏打 - 1 茶匙盐 ... |
您可以使用 Vertex AI on Google Cloud 提供的 Gemini API 与 Gemini 模型系列进行交互。对于移动应用和 Web 应用,您可以使用 Vertex AI for Firebase SDK 调用 Gemini API,并直接从您的应用与 Gemini 模型进行交互。
本页面提供了有关 Gemini 模型的以下信息:
各种 Gemini 模型的用例简要比较,包括它们支持的输入类型。
比较每个模型的详细信息,例如最大输入词元或视频时长上限。
有关 Gemini 模型的版本控制方式的说明,特别是稳定版、自动更新版本和预览版模型。
初始化期间需要添加到代码中的可用模型名称列表。
Gemini 模型支持的语言列表。
可用型号
您可以将以下任意 Gemini 模型与 Vertex AI for Firebase 搭配使用:
Gemini 1.5 Flash
多模态模型,其支持与 1.5 Pro 相同的输入和输出类型(以及总令牌数),但 1.5 闪存专为处理大批量、经济实惠的应用而设计。Gemini 1.5 Pro
多模态模型,支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以获得文本或代码回复。此外,该功能支持使用多达 100 万个词元进行长上下文理解。Gemini 1.0 Pro Vision
多模态模型,旨在处理文本、图像和视频,以生成文本或代码响应。无法用于聊天。Gemini 1.0 Pro
旨在处理自然语言任务、包含文字和代码的多轮聊天以及代码生成的模型。
每种模型的使用场景和功能
每个 Gemini 模型都有不同的功能,可支持各种用例。 如需了解详情,请参阅 Google Cloud 文档:
每种模型支持的输入和输出
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
输入类型 | ||||
文本 | ||||
代码 | ||||
映像 | ||||
视频(仅限帧) | ||||
视频(帧和音频) | ||||
音频 | ||||
输出类型 | ||||
文本 | ||||
代码 |
如需了解支持的文件类型,请参阅 Vertex AI Gemini API 支持的输入文件和要求。
每种模型支持的功能和常规功能
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
根据纯文字提示生成文本 | |||||
根据多模态提示生成文本 | |||||
JSON 输出(受限架构模式) (即将在 Vertex AI for Firebase SDK 中推出) |
|||||
多轮聊天 | |||||
函数调用 | |||||
基本函数调用 | |||||
并行函数调用 | |||||
函数调用模式 | |||||
计算令牌和可计费字符数 | |||||
系统指令 |
每个模型的详细信息
属性 |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|
词元总限制(输入和输出合并)* | 100 万个令牌 | 16384 个词元 | 32760 个令牌 |
输出令牌限制* | 8192 个词元 | 2048 个词元 | 8192 个词元 |
每个请求的图片数量上限 | 3000 张图片 | 16 张图片 | 不适用 |
采用 Base64 编码的图片的大小上限 | 7 MB | 7 MB | 不适用 |
PDF 大小上限 | 30 MB | 30 MB | 不适用 |
每个请求的视频文件数量上限 | 10 个视频文件 | 1 个视频文件 | 不适用 |
视频时长上限(仅限帧) | 60 分钟的视频 | 2 分钟 | 不适用 |
视频时长上限(帧和音频) | 大约 45 分钟的视频 | 不适用 | 不适用 |
每个请求的音频文件数量上限 | 1 个音频文件 | 不适用 | 不适用 |
音频时长上限 | 约 8.4 小时的音频 | 不适用 | 不适用 |
* 对于所有 Gemini 模型,一个词元约为 4 个字符,因此 100 个词元约为 60-80 个英语单词。您可以使用 countTokens
确定请求中令牌的总数。
您可以在以下位置找到有关模型和输入文件的更多详细信息:
请参阅 Google Cloud 文档,了解多模态模型之间的差异。
了解支持的文件类型、如何指定 MIME 类型,以及如何确保您的文件和多模态请求符合要求,并遵循支持的输入文件和 Vertex AI Gemini API 要求中的最佳实践。
对模型进行版本控制
Gemini 模型提供稳定版、自动更新版和预览版。
稳定版本被视为正式版。
- 稳定版本的模型名称后面带有一个特定的三位数版本号,例如
。gemini-1.0-pro-001
- 稳定版本的模型名称后面带有一个特定的三位数版本号,例如
自动更新版本始终指向该模型的最新稳定版本;如果发布了新的稳定版,则自动更新版本会自动开始指向该新稳定版。
- 自动更新的版本具有不带附加内容的模型名称,例如
。gemini-1.0-pro
- 自动更新的版本具有不带附加内容的模型名称,例如
预览版具有新功能,并被视为不稳定。请注意,预览版本始终指向该模型的最新预览版;如果发布了新的预览版本,任何现有预览版本都会自动开始指向该新的预览版本。
- 预览版的模型名称附加有
以及模型的初始发布日期 (-preview
),例如-MMDD
(发布日期:2024 年 4 月 9 日)。gemini-1.5-pro-preview-0409
- 预览版的模型名称附加有
如需详细了解可用的 Gemini 模型版本及其生命周期,请参阅 Google Cloud 文档。
可用的模型名称
模型名称是在生成模型初始化期间(这是调用 Genmini API 的必要步骤)期间在代码中添加的显式值。如需查看您的语言的初始化示例,请参阅入门指南。
Gemini 1.5 Flash 型号名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.5-flash-001 |
Gemini 1.5 Flash 的最新稳定版 | 正式版 | 2024-05-24 | 不早于 2025 年 5 月 24 日 |
自动更新的版本 | ||||
gemini-1.5-flash |
指向最新稳定版 1.5 Flash (目前为 gemini-1.5-flash-001 |
正式版 | 2024-05-24 | --- |
预览版 | ||||
gemini-1.5-flash-preview-0514 |
Gemini 1.5 Flash 最新预览版 | 公开预览版 | 2024-05-14 | 2024-06-24 |
Gemini 1.5 Pro 型号名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.5-pro-001 |
Gemini 1.5 Pro 的最新稳定版 | 正式版 | 2024-05-24 | 不早于 2025 年 5 月 24 日 |
自动更新的版本 | ||||
gemini-1.5-pro |
指向最新稳定版 1.5 Pro (目前为 gemini-1.5-pro-001 |
正式版 | 2024-05-24 | --- |
预览版 | ||||
gemini-1.5-pro-preview-0514 |
Gemini 1.5 Pro 最新预览版 | 公开预览版 | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
指向 gemini-1.5-pro-preview-0514 (最新预览版) |
公开预览版 | 2024-04-09 | 2024-06-14 |
Gemini 1.0 Pro Vision 模型名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision 的最新稳定版 | 正式版 | 2024-02-15 | 不早于 2025 年 2 月 15 日 |
自动更新的版本 | ||||
gemini-1.0-pro-vision |
指向最新稳定版 1.5 Pro Vision (目前为 gemini-1.5-pro-vision-001 |
正式版 | 2024-01-04 | --- |
Gemini 1.0 Pro 型号名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro 的最新稳定版 | 正式版 | 2024-04-09 | 不早于 2025 年 4 月 9 日 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro 稳定版 | 正式版 | 2024-02-15 | 不早于 2025 年 2 月 15 日 |
自动更新的版本 | ||||
gemini-1.0-pro |
指向最新稳定版 1.0 Pro (目前为 gemini-1.0-pro-002 |
正式版 | 2024-02-15 | --- |
支持的语言
Gemini 模型支持以下语言:
阿拉伯语 (ar)、孟加拉语 (bn)、保加利亚语 (bg)、中文简体和繁体 (zh)、克罗地亚语 (hr)、捷克语 (cs)、丹麦语 (da)、荷兰语 (nl)、英语 (en)、爱沙尼亚语 (et)、芬兰语 (fi)、法语 (fr)、德语 (de)、希腊语 (el)、俄语(瑞典语、瑞典语、韩语、希伯来语 - 印地语)
后续步骤