使用 Vertex AI for Firebase SDK 从您的应用调用 Vertex AI Gemini API 时,您可以提示 Gemini 模型基于多模态输入生成文本。多模态提示可以包括多种模态(或输入类型的)内容,例如带图片、PDF、视频和音频的文字。
对于输入的非文本部分(如媒体文件),您需要使用支持的文件类型,指定支持的 MIME 类型,并确保文件和多模态请求符合要求并遵循最佳实践。
支持的输入文件因模型而异,可能包括图片、PDF、视频和音频。
- 请注意,支持的视频输入也因模型而异,可能包括纯帧或带音频的帧。
针对输入文件和多模态请求的要求和最佳做法:
在了解 Gemini 模型中,您可以根据模型找到有关受支持文件的要求(例如文件数量上限和文件大小上限)的快速摘要。
在 Google Cloud 文档中,您可以了解有关输入文件和多模态请求的要求和最佳实践的详细信息(例如,支持的 MIME 类型以及何时在请求中提供输入文件)。
针对 Vertex AI for Firebase SDK 的要求
对于 Vertex AI for Firebase SDK,请求大小上限为 20 MB。如果请求过大,您会收到 HTTP 413 错误。
如果某个文件的大小会导致请求总大小超过 20 MB,请使用 Cloud Storage for Firebase 网址将该文件包含在多模式请求中。
如果文件很小,您通常可以将其作为内嵌数据直接传递。但请注意,作为内嵌数据提供的文件在传输过程中会编码为 base64,这会增加请求的大小。如需查看有关如何将文件添加为内嵌数据的示例,请参阅使用 Gemini API 根据多模态提示生成文本。