Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

此页面由 Cloud Translation API 翻译。

支持的输入文件和要求

当您使用 Firebase AI Logic SDK 从应用中调用 Gemini API 时，可以提示 Gemini 模型根据多模态输入（例如图片、视频、音频和文档 [如 PDF]）生成文本。

您需要使用受支持的文件类型，指定受支持的 MIME 类型，并确保文件和多模态请求符合要求并遵循最佳实践。

本页面专门介绍如何使用 GenerativeModel，并说明了以下内容：

在请求中提供文件的选项。
有关以下文件输入源的支持 MIME 类型、最佳实践和限制的详细信息：
图片 | 视频 | 音频 | 文档（例如 PDF）。

在多模态请求中提供文件的选项

选择您的 Gemini API 提供商，以查看此页面上特定于提供商的内容

在每个多模态请求中，您必须始终提供以下内容：

文件的 mimeType。请参阅此页面上相应部分中列出的每种输入文件支持的 MIME 类型。
文件。您可以将文件作为内嵌数据提供，也可以使用文件的网址提供文件。

您可以在请求中提供的文件大小和数量取决于输入文件类型、您提供文件的方式以及所用模型（如需了解详情，请参阅本页面上每种输入文件类型对应的部分）。

方法 1：以内嵌数据的形式提供文件

对于以内嵌数据形式提供的文件，请注意以下几点：

只有小文件才能作为内嵌数据发送，因为请求总大小限制为 20 MB。
文件在传输过程中会编码为 base64（这会增加文件大小）。

如需查看如何将文件作为内嵌数据包含在内的示例，请参阅根据文本和文件（多模态）输入生成文本。请注意，Android 和 Apple 平台的 SDK 可以处理请求中的内嵌图片，而无需指定 MIME 类型。了解详情。

方法 2：使用网址提供文件

使用 Gemini Developer API 时，可接受的网址类型如下：

YouTube 视频网址：YouTube 视频必须是公开或不公开列出的。

每个请求只能指定一个 YouTube 视频网址。

图片：要求、最佳实践和限制

图片：要求

在此部分中，您可以了解支持的 MIME 类型以及每个图片请求的限制。

支持的 MIME 类型

Gemini 多模态模型支持以下图片 MIME 类型：

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

每个请求的限制

对图片中的像素数量没有具体限制。不过，较大的图片会被缩小和填充，以适应最大分辨率 (3072 x 3072)，同时保留其原始宽高比。

每个请求的文件数量上限：3,000 个图片文件

图片：令牌化

以下是图片的 token 计算方式：

如果图片的两个尺寸均小于或等于 384 像素，则使用 258 个 token。
如果图片的某个尺寸大于 384 像素，则图片会被剪裁成图块。每个图块大小默认为最小尺寸（宽度或高度）除以 1.5。如有必要，系统会调整每个图块，使其不小于 256 像素且不大于 768 像素。随后系统会将每个图块的大小调整为 768x768，并使用 258 个 token。

图片：最佳实践

使用图片时，请遵循以下最佳实践和信息以获得最佳结果。

如果您想要检测图片中的文本，则使用包含单张图片的提示可生成比包含多张图片的提示更好的结果。
如果提示包含单张图片，请将该图片放在请求中的文本提示前面。
如果您的提示包含多张图片，并且您希望稍后在提示中引用这些图片，或者希望模型在模型回答中引用这些图片，则在图片之前为每张图片提供索引会有所帮助。对于索引，请使用 a b c 或 image 1 image 2 image 3。以下是在提示中使用已编入索引的图片的示例：
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
使用分辨率更高的图片；这样可生成更好的结果。
在提示中添加一些示例。
请先将图片旋转到适当方向，然后再将其添加到提示中。
避免使用模糊的图片。

图片：限制

虽然 Gemini 多模态模型在许多多模态应用场景中表现出强大功能，但了解模型的限制非常重要：

内容审核：模型拒绝对违反我们安全政策的图片提供回答。
空间推理：模型在定位图片中的文本或对象时并不精确。它们可能只返回对象数的近似值。
医疗用途：模型不适合解读医学图片（例如 X 光片和 CT 扫描），也不适合提供医学建议。
人物识别：模型不应用于识别图片中并非名人的人。
准确率：模型在解读低画质、旋转或分辨率极低的图片时可能会产生幻觉或出错。在解读图片文档中的手写文本时，模型也可能会产生幻觉。

视频：要求、最佳实践和限制

视频：要求

在此部分中，您可以了解视频支持的 MIME 类型以及每个请求的限制。

支持的 MIME 类型

Gemini 多模态模型支持以下视频 MIME 类型：

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

每个请求的限制

每个请求的文件数量上限：10 个视频文件

视频：标记化

以下是视频的 token 计算方式：

音轨与视频帧一起编码。音轨还会拆分为时长 1 秒的主干，每个主干占 32 个 token。视频帧和音频的 token 与其时间戳交织在一起。时间戳表示为 5 个 token。
对于选段率低于或等于 1 帧/秒 (fps) 的视频，视频前 1 小时的时间戳以每个视频帧 5 个 token 的形式表示。其余的时间戳以每个视频帧 7 个 token 的形式表示。
对于选段率高于 1 帧/秒 (fps) 的视频，视频前 1 小时的时间戳以每个视频帧 9 个 token 的形式表示。其余的时间戳以每个视频帧 11 个 token 的形式表示。

视频：最佳实践

使用视频时，请遵循以下最佳实践和信息以获得最佳结果：

如果提示包含单个视频，请将该视频放在文本提示前面。
如果需要对包含音频的视频进行时间戳本地化，请让模型以“时间戳格式”中所述格式生成时间戳。

视频：限制

虽然 Gemini 多模态模型在许多多模态应用场景中表现出强大功能，但了解模型的限制非常重要：

内容审核：模型拒绝对违反我们安全政策的视频提供回答。
非语音声音识别：支持音频的模型可能会在识别非语音声音时犯错。

音频：要求和限制

音频：要求

在本部分中，您可以了解音频支持的 MIME 类型以及每个请求的限制。

支持的 MIME 类型

Gemini 多模态模型支持以下音频 MIME 类型：

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

每个请求的限制

每个请求的文件数量上限：1 个音频文件

音频：限制

虽然 Gemini 多模态模型在许多多模态应用场景中表现出强大功能，但了解模型的限制非常重要：

非语音声音识别：支持音频的模型可能会在识别非语音声音时犯错。
仅音频的时间戳：如需为仅音频文件准确生成时间戳，您必须在 generation_config 中配置 audio_timestamp 参数。

文档（例如 PDF）：要求、最佳实践和限制

文件：要求

在此部分中，您可以了解支持的 MIME 类型以及每个文档（例如 PDF）请求的限制。

支持的 MIME 类型

Gemini 多模态模型支持以下文档 MIME 类型：

PDF - application/pdf
文本 - text/plain

每个请求的限制

PDF 文件被视为图片，因此 PDF 文件的单页被视为一张图片。提示中允许的页数取决于 Gemini 多模态模型可以支持的图片数量。

每个请求的文件数量上限：3,000 个文件
每个文件的页数上限：1,000 页
每个文件的大小上限：每个文件 50 MB

文档：令牌化

PDF 词元化

PDF 文件被视为图片，因此 PDF 文件的每页都会以与图片相同的方式进行词元化。

此外，PDF 的费用遵循 Gemini 图片价格。例如，如果您在 Gemini API 调用中包含一个两页的 PDF 文件，则会产生处理两张图片的输入费用。

文档：最佳实践

使用 PDF 文件时，请遵循以下最佳实践和信息以获得最佳结果：

如果提示包含单个 PDF 文件，请将该 PDF 文件放在请求中的文本提示前面。
如果您的文档很长，请考虑将其拆分为多个 PDF 进行处理。
使用以文本形式呈现的 PDF 文件，而不是使用扫描图片中的文本。此格式可确保文本是机器可读的，与扫描的图片 PDF 相比，文本更易于模型修改、搜索和操作。在使用合同等包含大量文本的文档时，这样可以提供最佳结果。

文档：限制

虽然 Gemini 多模态模型在许多多模态应用场景中表现出强大功能，但了解模型的限制非常重要：

空间推理：模型在定位 PDF 中的文本或对象时并不精确。它们可能只返回对象数的近似值。
准确性：模型在解读 PDF 文档中的手写文字时可能会产生幻觉。

支持的输入文件和要求 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

在多模态请求中提供文件的选项

方法 1：以内嵌数据的形式提供文件

方法 2：使用网址提供文件

图片：要求、最佳实践和限制

图片：要求

支持的 MIME 类型

每个请求的限制

图片：令牌化

图片：最佳实践

图片：限制

视频：要求、最佳实践和限制

视频：要求

支持的 MIME 类型

每个请求的限制

视频：标记化

视频：最佳实践

视频：限制

音频：要求和限制

音频：要求

支持的 MIME 类型

每个请求的限制

音频：限制

文档（例如 PDF）：要求、最佳实践和限制

文件：要求

支持的 MIME 类型

每个请求的限制

文档：令牌化

文档：最佳实践

文档：限制

支持的输入文件和要求