Gemini 系列模型被视为多模态,因为它们 处理多种形式的信息,包括图片、视频、 和文本。例如,你可以向 Gemini 模型发送一张盘子 并要求它提供这些饼干的食谱
提示 | 回答 |
告诉我这些 Cookie 的配方。 |
**INGREDIENTS** - 1 c. (2 枚)无盐黄油、软化 - 3/4 c 细粒糖 - 3/4 c 棕色糖,包装 - 1 匙。香草提取物 - 2 颗大鸡蛋 - c.通用面粉 - 1 茶匙小苏打 - 1 茶匙盐 ... |
您可以使用 Gemini API,提供方:Vertex AI Google Cloud。对于移动应用和 Web 应用,您可以使用 Vertex AI in Firebase SDK,用于调用 Gemini API 并与 Gemini 模型。
本页提供了有关 Gemini 模型的以下信息:
各种 Gemini 的用例简要对比 包括其支持的输入类型。
比较每个模型的详细信息,例如 输入令牌数量上限或视频时长上限。
关于 Gemini 模型如何进行版本控制的说明,请专门针对以下内容进行说明: 稳定版、自动更新和预览版。
要添加到 的可用型号名称 代码。
Gemini 模型支持的语言列表。
可用型号
您可以通过“Vertex AI in Firebase”使用以下任一 Gemini 模型:
Gemini 1.5 Flash
支持相同输入和输出的多模态模型 但支持 100 万个词元的长上下文理解。 Gemini 1.5 Flash 专为高用量、高性价比而设计 应用。Gemini 1.5 Pro
多模态模型,支持添加图片、音频、视频、 以及 PDF 文件的文本或聊天提示,以获取文本或代码回复。 此外,它还支持具有 200 万个词元的长上下文理解。Gemini 1.0 Pro Vision
旨在处理文本和 图片和视频,用于文本或代码响应。无法用于聊天。Gemini 1.0 Pro
用于处理自然语言任务的模型,多轮 利用文本和代码,以及代码生成功能,轻松实现聊天。
每种模型的使用场景和功能
每种 Gemini 模型都有不同的功能,可支持各种应用场景。 您可以在Google Cloud文档中详细了解 Gemini 模型。
每种模型支持的输入和输出
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
输入类型 | ||||
文字 | ||||
代码 | ||||
映像 | ||||
视频(仅限帧) | ||||
视频(帧和音频) | ||||
音频 | ||||
输出类型 | ||||
文字 | ||||
代码 |
要了解支持的文件类型,请参阅 Vertex AI Gemini API 支持的输入文件和要求。
每个模型支持的功能和一般特性
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
根据纯文本提示生成文本 | |||||
根据多模态提示生成文本 | |||||
JSON 输出(受限架构模式) (即将在 Vertex AI in Firebase SDK 中推出) |
|||||
多轮聊天 | |||||
函数调用 | |||||
基本函数调用 | |||||
并行函数调用 | |||||
函数调用模式 | |||||
统计令牌和可计费字符数 | |||||
系统指令 |
每种模型的详细信息
属性 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
词元总数上限(输入和输出组合)* | 1048576 个词元 | 2097152 个词元 | 16384 个词元 | 32760 个令牌 |
输出词元限制 * | 8192 个词元 | 8192 个词元 | 2048 个词元 | 8192 个词元 |
每个请求的图片数量上限 | 3,000 张图片 | 3,000 张图片 | 16 张图片 | 不适用 |
Base64 编码的图片大小上限 | 7 MB | 7 MB | 7 MB | 不适用 |
PDF 大小上限 | 30 MB | 30 MB | 30 MB | 不适用 |
每个请求的视频文件数量上限 | 10 个视频文件 | 10 个视频文件 | 1 个视频文件 | 不适用 |
视频时长上限(仅限帧) | 视频时长约为 60 分钟 | 视频时长约为 60 分钟 | 2 分钟 | 不适用 |
视频时长上限(帧和音频) | 视频时长约为 45 分钟 | 视频时长约为 45 分钟 | 不适用 | 不适用 |
每个请求的音频文件数量上限 | 1 个音频文件 | 1 个音频文件 | 不适用 | 不适用 |
音频时长上限 | 大约 8.4 小时的音频 | 大约 8.4 小时的音频 | 不适用 | 不适用 |
* 对于所有 Gemini 模型,一个词元大约相当于 4 个字符,
因此 100 个词元约为 60-80 个英语单词。您可以决定
使用
countTokens
。
您可在此处找到有关各种模型和 输入文件:
详细了解 多模态模型之间的差异,请参阅 Google Cloud 文档。
了解支持的文件类型、如何指定 MIME 类型以及如何 请确保您的文件和多模态请求符合要求,并遵循 最佳做法 Vertex AI Gemini API 支持的输入文件和要求。
模型的版本控制
Gemini 模型提供稳定版、自动更新和预览版 版本。
稳定版本被视为已推出正式版。
- 稳定版的型号名称附加了
特定的三位数版本号,例如
。gemini-1.0-pro-001
- 稳定版的型号名称附加了
特定的三位数版本号,例如
自动更新版本始终指向最新稳定版本的 模型;自动更新版本(如果发布了新的稳定版) 自动开始指向新的稳定版。
- 自动更新版本的型号名称没有
附属物,例如
。gemini-1.0-pro
- 自动更新版本的型号名称没有
附属物,例如
预览版具有新功能,被视为不稳定。 请注意,预览版始终指向最新预览版 模型;任何现有的预览版本(如果发布了新的预览版本) 并自动开始指向新的预览版本
- 预览版的型号名称附加了
以及模型的初始版本 日期 (-preview
),例如-MMDD
(发布日期:2024 年 4 月 9 日)。gemini-1.5-pro-preview-0409
- 预览版的型号名称附加了
详细了解 可用的 Gemini 模型版本及其生命周期 。Google Cloud
可用的型号名称
模型名称是部署期间代码中包含的明确值 初始化生成模型(这是调用 Gemini API)。如需查看您所用语言的初始化示例,请参阅 入门指南。
Gemini 1.5 Flash 型号名称
模型名称 | 说明 | 发布阶段 | 首次发布日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.5-flash-001 |
Gemini 1.5 Flash 的最新稳定版 | 正式版 | 2024-05-24 | 不早于 2025-05-24 |
自动更新版本 | ||||
gemini-1.5-flash |
指向最新稳定版本的 1.5 Flash (当前价格: gemini-1.5-flash-001 |
正式版 | 2024-05-24 | --- |
预览版 | ||||
gemini-1.5-flash-preview-0514 |
Gemini 1.5 Flash 的最新预览版 | 公开预览版 | 2024-05-14 | 2024-06-24 |
Gemini 1.5 Pro 型号名称
模型名称 | 说明 | 发布阶段 | 首次发布日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.5-pro-001 |
Gemini 1.5 Pro 最新稳定版 | 正式版 | 2024-05-24 | 不早于 2025-05-24 |
自动更新版本 | ||||
gemini-1.5-pro |
指向最新稳定版本的 1.5 Pro (当前价格: gemini-1.5-pro-001 |
正式版 | 2024-05-24 | --- |
预览版 | ||||
gemini-1.5-pro-preview-0514 |
Gemini 1.5 Pro 的最新预览版 | 公开预览版 | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
指向“gemini-1.5-pro-preview-0514 (这是最新预览版本) |
公开预览版 | 2024-04-09 | 2024-06-14 |
Gemini 1.0 Pro Vision 模型名称
模型名称 | 说明 | 发布阶段 | 首次发布日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.0-pro-vision-001 |
最新稳定版 Gemini 1.0 Pro Vision | 正式版 | 2024-02-15 | 不早于 2025-02-15 |
自动更新版本 | ||||
gemini-1.0-pro-vision |
指向最新稳定版本的 1.5 Pro Vision (当前价格: gemini-1.5-pro-vision-001 |
正式版 | 2024-01-04 | --- |
Gemini 1.0 Pro 模型名称
模型名称 | 说明 | 发布阶段 | 首次发布日期 | 终止日期 |
---|---|---|---|---|
稳定版 | ||||
gemini-1.0-pro-002 |
最新稳定版 Gemini 1.0 Pro | 正式版 | 2024-04-09 | 不早于 2025-04-09 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro 稳定版 | 正式版 | 2024-02-15 | 不早于 2025-02-15 |
自动更新版本 | ||||
gemini-1.0-pro |
指向最新稳定版本的 1.0 Pro (当前价格: gemini-1.0-pro-002 |
正式版 | 2024-02-15 | --- |
支持的语言
所有 Gemini 模型都可以理解和响应 以下语言:
阿拉伯语 (ar)、孟加拉语 (bn)、保加利亚语 (bg)、 简体中文和繁体中文 (zh)、克罗地亚语 (hr)、捷克语 (cs)、 丹麦语 (da)、荷兰语 (nl)、英语 (en)、爱沙尼亚语 (et)、芬兰语 (fi)、 法语 (fr)、德语 (de)、希腊语 (el)、希伯来语 (iw)、印地语 (hi)、匈牙利语 (hu)、 印度尼西亚语 (id)、意大利语 (it)、日语 (ja)、韩语 (ko)、拉脱维亚语 (lv)、 立陶宛语 (lt)、挪威语 (no)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、 俄语 (ru)、塞尔维亚语 (sr)、斯洛伐克语 (sk)、斯洛文尼亚语 (sl)、西班牙语 (es)、 斯瓦希里语 (sw)、瑞典语 (sv)、泰语 (th)、土耳其语 (tr)、乌克兰语 (uk)、 越南语 (vi)
Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型可以理解和做出以下其他语言:
南非荷兰语 (af)、阿姆哈拉语 (am)、阿萨姆语 (as)、阿塞拜疆语 (az)、 白俄罗斯语 (be)、波斯尼亚语 (bs)、加泰罗尼亚语 (ca)、宿务语 (ceb)、科西嘉语 (co)、 威尔士语 (cy)、迪维希语 (dv)、世界语 (eo)、巴斯克语 (eu)、波斯语 (fa) 菲律宾语 (他加禄语) (fil)、弗里斯语 (fy)、爱尔兰语 (ga)、苏格兰盖尔语 (gd)、 加利西亚语 (gl)、古吉拉特语 (gu)、豪萨语 (ha)、夏威夷语 (haw)、苗语 (hmn)、 海地克里奥尔语 (ht)、亚美尼亚语 (hy)、伊博 (ig)、冰岛语 (is)、爪哇语 (jv)、 格鲁吉亚语 (ka)、哈萨克语 (kk)、高棉语 (km)、卡纳达语 (kn)、克里奥 (kri) 库尔德语 (ku)、吉尔吉斯语 (ky)、拉丁语 (la)、卢森堡语 (lb)、老挝语 (lo)、 马达加斯语 (mg)、毛利语 (mi)、马其顿语 (mk)、马拉雅拉姆语 (ml)、蒙古语 (mn)、 迈泰隆 (Manipuri) (mni-Mtei)、马拉地语 (mr)、马来语 (ms)、马耳他语 (mt)、 缅甸语 (my)、尼泊尔语 (ne)、尼扬扎语 (Chichewa)(ny)、 奥里亚语 (Oriya)、旁遮普语 (pa)、普什图语 (ps)、信德语 (sd)、 僧伽罗语 (si)、萨摩亚语 (sm)、修纳语 (sn)、索马里语 (so)、阿尔巴尼亚语 (sq)、 塞索托语 (st)、巽他语 (su)、泰米尔语 (ta)、泰卢固语 (te)、塔吉克语 (tg)、 维吾尔语 (ug)、乌尔都语 (ur)、乌兹别克语 (uz)、科萨语 (xh)、意第绪语 (yi)、约鲁巴语 (yo) 祖鲁语 (zu)
后续步骤