Gemini 系列模型被视为多模态模型,因为它们能够处理来自多种模态(包括图片、视频和文本)的信息。例如,您可以向 Gemini 模型发送一张展示一盘曲奇的照片,并要求它给您一份制作这些曲奇的食谱。
提示 | 答案 |
Give me a recipe for these cookies. |
**INGREDIENTS**
|
您可以使用 Google Cloud 上的 Vertex AI 提供的 Gemini API 与 Gemini 系列模型进行交互。对于移动应用和 Web 应用,您可以使用 Vertex AI in Firebase SDK 调用 Gemini API,并直接从应用中与 Gemini 模型进行交互。
本页面提供了有关 Gemini 模型的以下信息:
各种 Gemini 模型的用例(包括支持的输入类型)的概要比较。
比较每个模型的详细信息,例如输入词元数上限或视频时长上限。
介绍 Gemini 模型的版本控制方式,特别是其稳定版、自动更新版和预览版。
要在初始化期间在代码中添加的可用模型名称列表。
Gemini 模型的受支持语言列表。
可用型号
您可以将以下任一 Gemini 模型与 Vertex AI in Firebase 搭配使用:
Gemini 1.5 Flash
多模态模型,支持与 1.5 Pro 相同的输入和输出类型,但长上下文理解能力为 100 万个词元。Gemini 1.5 Flash 专为高效处理大量应用而设计。Gemini 1.5 Pro
此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。此外,它还支持 200 万个词元的长上下文理解。Gemini 1.0 Pro Vision
此多模态模型旨在处理文本以及图片和视频,以提供文本或代码回答。无法用于聊天。Gemini 1.0 Pro
该模型旨在处理自然语言任务、多轮文本和代码聊天以及代码生成。
每种模型的用例和功能
每种 Gemini 模型都有不同的功能,可支持不同的用例。如需详细了解每种 Gemini 模型,请参阅 Google Cloud 文档。
每个模型支持的输入和输出
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
输入类型 | ||||
文字 | ||||
代码 | ||||
Image | ||||
视频(仅限帧) | ||||
视频(帧和音频) | ||||
音频 | ||||
输出类型 | ||||
文字 | ||||
使用响应架构的结构化输出(例如 JSON) | ||||
代码 |
如需了解支持的文件类型,请参阅 Vertex AI Gemini API 支持的输入文件和要求。
每种型号支持的功能和常规功能
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
根据纯文本输入生成文本 | |||||
根据多模态输入生成文本 | |||||
使用响应架构的结构化输出(例如 JSON) | |||||
多轮聊天 | |||||
函数调用 | |||||
基本函数调用 | |||||
并行函数调用 | |||||
函数调用模式 | |||||
计算词元数和计费字符数 | |||||
系统指令 |
有关每种型号的详细信息
属性 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
令牌总数限制(输入和输出总和)* | 1,048,576 个令牌 | 2,097,152 个令牌 | 16,384 个令牌 | 32,760 个词元 |
输出令牌限制 * | 8,192 个令牌 | 8,192 个令牌 | 2,048 个令牌 | 8,192 个令牌 |
每个请求的图片数量上限 | 3,000 张图片 | 3,000 张图片 | 16 张图片 | 不适用 |
Base64 编码的图片大小上限 | 7 MB | 7 MB | 7 MB | 不适用 |
PDF 文件大小上限 | 30 MB | 30 MB | 30 MB | 不适用 |
每个请求的视频文件数量上限 | 10 个视频文件 | 10 个视频文件 | 1 个视频文件 | 不适用 |
视频时长上限(仅限帧数) | 约 60 分钟的视频 | 约 60 分钟的视频 | 2 分钟 | 不适用 |
视频时长上限(帧和音频) | 约 45 分钟的视频 | 约 45 分钟的视频 | 不适用 | 不适用 |
每个请求的音频文件数量上限 | 1 个音频文件 | 1 个音频文件 | 不适用 | 不适用 |
音频时长上限 | 约 8.4 小时的音频 | 约 8.4 小时的音频 | 不适用 | 不适用 |
* 对于所有 Gemini 模型,一个令牌大约相当于 4 个字符,因此 100 个令牌大约相当于 60-80 个英语单词。您可以使用 countTokens
确定请求中的令牌总数。
如需了解支持的文件类型、如何指定 MIME 类型,以及如何确保您的文件和多模式请求符合要求并遵循最佳实践,请参阅 Vertex AI Gemini API 支持的输入文件和要求。
模型的版本控制
Gemini 模型提供稳定版、自动更新版和预览版。
稳定版本被视为正式版。
- 稳定版本的模型名称会附加特定的三位数版本号,例如
。gemini-1.5-pro-002
- 稳定版本的模型名称会附加特定的三位数版本号,例如
自动更新版本始终指向该模型的最新稳定版本;如果有新的稳定版本发布,自动更新版本会自动开始指向该新的稳定版本。
- 自动更新版本的模型名称不含附加项,例如
。gemini-1.5-pro
- 自动更新版本的模型名称不含附加项,例如
预览版版本具有新功能,但被视为不稳定。请注意,预览版始终指向该模型的最新预览版;如果发布了新的预览版,则任何现有预览版都会自动开始指向该新预览版。
- 预览版的模型名称会附加
以及模型的初始发布日期 (-preview
),例如-MMDD
(发布时间为 2024 年 4 月 9 日)。gemini-1.5-pro-preview-0409
- 预览版的模型名称会附加
如需详细了解可用的 Gemini 模型版本及其生命周期,请参阅 Google Cloud 文档。
可用的型号名称
模型名称是您在生成式模型初始化期间在代码中添加的显式值(这是调用 Gemini API 的必需步骤)。如需查看适用于您所用语言的初始化示例,请参阅入门指南。
Gemini 1.5 Flash 模型名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版本 | ||||
gemini-1.5-flash-002 |
最新稳定版 Gemini 1.5 Flash | 正式版 | 2024-09-24 | 不早于 2025 年 9 月 24 日 |
gemini-1.5-flash-001 |
Gemini 1.5 Flash 的初始稳定版 | 正式版 | 2024-05-24 | 不早于 2025 年 5 月 24 日 |
自动更新的版本 | ||||
gemini-1.5-flash |
指向 1.5 Flash 的最新稳定版 (目前为 gemini-1.5-flash-002 |
正式版 | 2024-09-24 | --- |
Gemini 1.5 Pro 型号名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版本 | ||||
gemini-1.5-pro-002 |
Gemini 1.5 Pro 的最新稳定版 | 正式版 | 2024-09-24 | 不早于 2025 年 9 月 24 日 |
gemini-1.5-pro-001 |
Gemini 1.5 Pro 的初始稳定版 | 正式版 | 2024-05-24 | 不早于 2025 年 5 月 24 日 |
自动更新的版本 | ||||
gemini-1.5-pro |
指向 1.5 Pro 的最新稳定版 (目前为 gemini-1.5-pro-002 |
正式版 | 2024-09-24 | --- |
Gemini 1.0 Pro Vision 模型名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版本 | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision 的最新稳定版 | 正式版 | 2024-02-15 | 不早于 2025 年 2 月 15 日 |
自动更新的版本 | ||||
gemini-1.0-pro-vision |
指向 1.5 Pro Vision 的最新稳定版(目前为 gemini-1.5-pro-vision-001 |
正式版 | 2024-01-04 | --- |
Gemini 1.0 Pro 型号名称
模型名称 | 说明 | 发布阶段 | 首发日期 | 终止日期 |
---|---|---|---|---|
稳定版本 | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro 的最新稳定版 | 正式版 | 2024-04-09 | 不早于 2025 年 4 月 9 日 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro 稳定版 | 正式版 | 2024-02-15 | 不早于 2025 年 2 月 15 日 |
自动更新的版本 | ||||
gemini-1.0-pro |
指向 1.0 Pro 的最新稳定版 (目前为 gemini-1.0-pro-002 |
正式版 | 2024-02-15 | --- |
支持的语言
所有 Gemini 模型都可以理解以下语言并以这些语言进行回答:
阿拉伯语 (ar)、孟加拉语 (bn)、保加利亚语 (bg)、中文(简体和繁体)(zh)、克罗地亚语 (hr)、捷克语 (cs)、丹麦语 (da)、荷兰语 (nl)、英语 (en)、爱沙尼亚语 (et)、芬兰 (fi)、法语 (fr)、德语 (de)、希腊语 (el)、希伯来语 (iw)、印地语 (hi)、匈牙利语 (hu)、印度尼西亚语 (id)、意大利语 (it)、日语 (ja)、韩语 (ko)、拉脱维亚语 (lv)、立陶宛语 (lt)、挪威语 (no)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、塞尔维亚语 (sr)、斯洛伐克语 (sk)、斯洛文尼亚语 (sl)、西班牙语 (es)、斯瓦希里语 (sw)、瑞典语 (sv)、泰语 (th)、土耳其语 (tr)、乌克兰语 (uk)、越南语 (vi)
Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型可以理解并以以下其他语言做出回答:
阿非利堪斯语 (af)、阿姆哈拉语 (am)、阿萨姆语 (as)、阿塞拜疆语 (az)、白俄罗斯语 (be)、波斯尼亚语 (bs)、加泰罗尼亚语 (ca)、宿务语 (ceb)、科西嘉语 (co)、威尔士语 (cy)、迪维希语 (dv)、世界语 (eo)、巴斯克语 (eu)、波斯语 (fa)、菲律宾语(他加禄语)(fil)、弗里西语 (fy)、爱尔兰语 (ga)、苏格兰盖尔语 (gd)、加利西亚语 (gl)、古吉拉特语 (gu)、豪萨语 (ha)、夏威夷语 (haw)、苗语 (hmn)、海地克里奥尔语 (ht)、亚美尼亚语 (hy)、伊博语 (ig)、冰岛语 (is)、爪哇语 (jv)、格鲁吉亚语 (ka)、哈萨克语 (kk)、高棉语 (km)、卡纳达语 (kn)、克里奥尔语 (kri)、库尔德语 (ku)、吉尔吉斯语 (ky)、拉丁语 (la)、卢森堡语 (lb)、老挝语 (lo)、马达加斯加语 (mg)、毛利语 (mi)、马其顿语 (mk)、马拉雅拉姆语 (ml)、蒙古语 (mn)、曼尼普里语 (mni-Mtei)、马拉地语 (mr)、马来语 (ms)、马耳他语 (mt)、缅甸语 (my)、尼泊尔语 (ne)、尼日利亚语 (ny)、奥里亚语 (Oriya) (or)、旁遮普语 (pa)、普什图语 (ps)、信德语 (sd)、僧伽罗语 (Sinhalese) (si)、萨摩亚语 (sm)、绍纳语 (sn)、索马里语 (so)、阿尔巴尼亚语 (sq)、塞索托语 (st)、苏门答语 (su)、泰米尔语 (ta)、泰卢固语 (te)、塔吉克语 (tg)、维吾尔语 (ug)、乌尔都语 (ur)、乌兹别克语 (uz)、科萨语 (xh)、意第绪语 (yi)、约鲁巴语 (yo)、祖鲁语 (zu)
后续步骤
试用 Gemini API 的功能
- 构建多轮对话(聊天)。
- 根据纯文本提示生成文本。
- 从多模态提示(包括文本、图片、PDF、视频和音频)生成文本。
- 根据文本和多模态提示生成结构化输出(例如 JSON)。
- 使用函数调用将生成式模型连接到外部系统和信息。