使用 Vertex AI for Firebase SDK 从应用中调用 Vertex AI Gemini API 时,您可以提示 Gemini 模型根据多模态输入生成文本。多模态提示可以包含多种模态(或多种输入类型),例如文本以及图片、PDF、视频和音频。
对于输入内容的非文本部分(例如媒体文件),您需要使用支持的文件类型,指定支持的 MIME 类型,并确保文件和多模态请求符合要求并遵循最佳实践。
支持的输入文件因模型而异,可能包括图片、PDF、视频和音频。
- 请注意,支持的视频输入也因模型而异,可能包括纯帧或带音频的帧。
有关输入文件和多模态请求的要求和最佳做法:
在了解 Gemini 模型中,您可以找到基于模型对受支持文件的要求(例如,文件数上限和文件大小上限)的快速摘要。
在 Google Cloud 文档中,您可以详细了解输入文件和多模态请求的要求以及最佳实践(例如,支持的 MIME 类型以及何时在请求中提供输入文件)。
针对 Vertex AI for Firebase SDK 的要求
对于 Vertex AI for Firebase SDK,请求大小上限为 20 MB。如果请求过大,您会收到 HTTP 413 错误。
如果某个文件的大小使请求的总大小超过 20 MB,请使用 Cloud Storage for Firebase 网址将该文件包含在多模态请求中。
如果文件很小,您通常可以将其作为内嵌数据直接传递。但请注意,以内嵌数据形式提供的文件在传输过程中会编码为 base64,这会增加请求的大小。如需查看有关如何将文件添加为内嵌数据的示例,请参阅使用 Gemini API 根据多模态提示生成文本。