使用 Gemini API 根据多模态提示生成文本


使用 Vertex AI in Firebase SDK 从应用调用 Gemini API 时,您可以提示 Gemini 模型根据多模态输入生成文本。多模态提示可以包含多种模态(或多种输入类型),例如文本以及图片、PDF、视频和音频。

如需测试和迭代多模态提示,我们建议使用 Vertex AI Studio

准备工作

完成 Vertex AI in Firebase SDK 入门指南(如果您尚未完成)。请确保您已完成以下所有操作:

  1. 设置一个新的 Firebase 项目或一个现有的 Firebase 项目,包括使用 Blaze 定价方案并启用所需的 API。

  2. 将您的应用与 Firebase 相关联,包括注册应用并将 Firebase 配置添加到应用中。

  3. 添加 SDK 并在您的应用中初始化 Vertex AI 服务和生成模型。

将应用连接到 Firebase、添加 SDK 并初始化 Vertex AI 服务和生成式模型后,您就可以调用 Gemini API 了。

根据文本和单张图片生成文本

在尝试此示例之前,请确保您已完成本指南的准备工作部分。

您可以使用同时包含文本和单个文件(如本例中所示)的多模态提示来调用 Gemini API。对于这些通话,您需要使用支持多模态提示的模型(如 Gemini 1.5 Pro)。

支持的文件包括图片、PDF、视频、音频等。 请务必查看输入文件的要求和建议

选择是流式传输回答 (generateContentStream),还是等待系统生成完整结果 (generateContent)。

流式传输

通过不等待模型生成的完整结果,您可以实现更快的互动,而是使用流式传输来处理部分结果。

不在线播放

或者,您也可以等待整个结果,而不是流式传输;只有在模型完成整个生成过程后,才会返回结果。

了解如何选择适合您的用例和应用的 Gemini 模型和(可选)位置

根据文本和多张图片生成文本

在尝试此示例之前,请确保您已完成本指南的准备工作部分。

您可以使用同时包含文本和多个文件(如本例中所示)的多模态提示来调用 Gemini API。对于这些通话,您需要使用支持多模态提示的模型(如 Gemini 1.5 Pro)。

支持的文件包括图片、PDF、视频、音频等。 请务必查看输入文件的要求和建议

选择是流式传输响应 (generateContentStream),还是等待响应生成整个结果 (generateContent)。

流式传输

通过不等待模型生成的完整结果,您可以实现更快的互动,而是使用流式传输来处理部分结果。

不直播

或者,您也可以等待整个结果,而不是流式传输;只有在模型完成整个生成过程后,系统才会返回结果。

了解如何选择适合您的用例和应用的 Gemini 模型和(可选)位置

根据文本和视频生成文本

在尝试此示例之前,请确保您已完成本指南的准备工作部分。

您可以使用包含文本和单个视频的多模态提示调用 Gemini API(如以下示例所示)。对于这些调用,您需要使用支持多模态提示的模型(例如 Gemini 1.5 Pro)。

请务必查看输入文件的要求和建议

选择是流式传输响应 (generateContentStream),还是等待响应生成整个结果 (generateContent)。

流式传输

通过不等待模型生成的完整结果,您可以实现更快的互动,而是使用流式传输来处理部分结果。

不在线播放

或者,您也可以等待整个结果而不是流式传输结果;只有在模型完成整个生成过程后,系统才会返回结果。

了解如何选择适合您的用例和应用的 Gemini 模型和(可选)位置

针对输入文件的要求和建议

如需了解支持的文件类型、如何指定 MIME 类型以及如何确保您的文件和多模态请求符合要求并遵循最佳实践,请参阅 Vertex AI Gemini API 支持的输入文件和要求

您还可以做些什么?

试用 Gemini API 的其他功能

了解如何控制内容生成

您还可以使用 Vertex AI Studio 对提示和模型配置进行实验。

详细了解 Gemini 模型

了解适用于各种用例的模型及其配额和价格


请就您的Vertex AI in Firebase使用体验提供反馈