使用 Gemini API 透過多模態提示產生文字


使用 Vertex AI for Firebase SDK 從應用程式呼叫 Gemini API 時,您可以提示 Gemini 模型根據多模態輸入內容生成文字。多模態提示可以包含多種形式 (或輸入內容類型),例如文字、圖片、PDF、影片和音訊。

如要測試及疊代多模態提示,建議使用 Vertex AI Studio

事前準備

如果您尚未閱讀 Vertex AI for Firebase SDK 入門指南,請先完成這項操作。請確認您已完成下列所有步驟:

  • 設定新的或現有的 Firebase 專案,包括使用 Blaze 定價方案,並啟用必要的 API。

  • 將應用程式連結至 Firebase,包括註冊應用程式以及將 Firebase 設定新增至應用程式。

  • 新增 SDK,並在應用程式中初始化 Vertex AI 服務和生成式模型。

將應用程式連結至 Firebase、新增 SDK,並初始化 Vertex AI 服務和生成式模型後,就能呼叫 Gemini API。

使用文字和單一圖片來生成文字

嘗試這個範例之前,請確認您已完成本指南的「事前準備」一節。

您可以使用包含文字和單一檔案 (例如圖片) 的多模態提示呼叫 Gemini API,如本例所示。如要進行這類呼叫,您必須使用支援多模態提示的模型 (例如 Gemini 1.5 Pro)。

支援的檔案包括圖片、PDF、影片、音訊等。 請務必詳閱輸入檔案的需求條件和建議

選擇要串流回應 (generateContentStream),或是等待回應直到產生完整結果 (generateContent) 為止。

逐句顯示回覆

您不必等待模型生成的所有結果,而是改用串流處理部分結果,達到更快的互動。

以下範例說明如何使用 generateContentStream() 串流,從包含文字和單張圖片的多模態提示要求中產生的文字:

不串流播放

您也可以等待整個結果,而非串流;只有在模型完成整個產生程序後才會傳回結果。

以下範例說明如何使用 generateContent(),透過包含文字和一張圖片的多模態提示要求生成文字:

瞭解如何根據用途和應用程式需求,選擇 Gemini 模型,以及選擇合適的位置

使用文字和多張圖片來生成文字

嘗試這個範例之前,請確認您已完成本指南的「事前準備」一節。

您可以使用包含文字和多個檔案 (如圖片) 的多模態提示來呼叫 Gemini API。如要進行這類呼叫,您必須使用支援多模態提示的模型 (例如 Gemini 1.5 Pro)。

支援的檔案包括圖片、PDF、影片、音訊等。 請務必詳閱輸入檔案的需求條件和建議

選擇要串流回應 (generateContentStream),或是等待回應直到產生完整結果 (generateContent) 為止。

逐句顯示回覆

您不必等待模型生成的所有結果,而是改用串流處理部分結果,達到更快的互動。

以下範例說明如何使用 generateContentStream() 串流,從包含文字和多張圖片的多模態提示要求中產生的文字:

不串流播放

或者,您也可以等待整個結果而非串流;只有在模型完成整個產生程序後才會傳回結果。

以下範例說明如何使用 generateContent(),透過包含文字和多張圖片的多模態提示要求生成文字:

瞭解如何根據用途和應用程式需求,選擇 Gemini 模型,以及選擇合適的位置

從文字和影片生成文字

嘗試這個範例之前,請確認您已完成本指南的「事前準備」一節。

您可以使用包含文字和單一影片的多模態提示呼叫 Gemini API (如範例所示)。如要進行這類呼叫,您必須使用支援多模態提示的模型 (例如 Gemini 1.5 Pro)。

請務必詳閱輸入檔案的需求條件和建議

選擇要串流回應 (generateContentStream),或是等待回應直到產生完整結果 (generateContent) 為止。

逐句顯示回覆

您不必等待模型生成的所有結果,而是改用串流處理部分結果,達到更快的互動。

以下範例說明如何使用 generateContentStream() 串流,從包含文字和單一影片的多模態提示要求中產生的文字:

不串流播放

您也可以等待整個結果,而非串流;只有在模型完成整個產生程序後才會傳回結果。

以下範例說明如何使用 generateContent(),透過包含文字和單一影片的多模態提示要求產生文字:

瞭解如何根據用途和應用程式需求,選擇 Gemini 模型,以及選擇合適的位置

輸入檔案的需求條件和建議

如要瞭解支援的檔案類型、如何指定 MIME 類型,以及如何確保檔案和多模態要求符合需求和遵循最佳做法,請參閱「Vertex AI Gemini API 支援的輸入檔案和規定」。

您還能做些什麼?

  • 請先瞭解如何計算符記,再將較長的提示傳送至模型。
  • 設定 Cloud Storage for Firebase,以便在使用 Cloud Storage 網址的多模態要求中加入大型檔案,其中包含圖片、PDF、影片和音訊。
  • 開始思考如何做好發布準備,包括設定 Firebase App Check,防止 Gemini API 遭到未經授權的用戶端濫用。

試用 Gemini API 的其他功能

瞭解如何控管內容生成功能

您也可以使用 Vertex AI Studio 測試提示和模型設定。

進一步瞭解 Gemini 模型

瞭解不同用途適用的模型配額與定價


針對 Vertex AI for Firebase 使用體驗提供意見回饋