Gemini API を使用してマルチモーダル プロンプトからテキストを生成する


Vertex AI in Firebase SDK を使用してアプリから Gemini API を呼び出すときに、マルチモーダル入力に基づいてテキストを生成するように Gemini モデルにプロンプトを出すことができます。マルチモーダル プロンプトには、テキスト、画像、PDF、テキスト ファイル、動画、音声など、複数のモダリティ(または入力タイプ)を含めることができます。

各マルチモーダル リクエストで、必ず次の情報を指定する必要があります。

  • ファイルの mimeType。各入力ファイルでサポートされている MIME タイプについて確認する。

  • ファイル。ファイルは、(このページに示すように)インライン データとして指定することも、URL または URI を使用して指定することもできます。

マルチモーダル プロンプトのテストと反復処理には、Vertex AI Studio を使用することをおすすめします。

始める前に

Vertex AI in Firebase SDK のスタートガイドをまだ完了していない場合は、必ず完了してください。以下の手順をすべて完了していることを確認します。

  1. Blaze お支払いプランの使用や必要な API の有効化など、新規または既存の Firebase プロジェクトを設定します。

  2. アプリを Firebase に接続して、アプリの登録や Firebase 構成のアプリへの追加などを行います。

  3. SDK を追加し、アプリで Vertex AI サービスと生成モデルを初期化します。

アプリを Firebase に接続し、SDK を追加して、Vertex AI サービスと生成モデルを初期化したら、Gemini API を呼び出す準備が整います。

テキストと 1 つの画像からテキストを生成する テキストと複数の画像からテキストを生成する テキストと動画からテキストを生成する

サンプル メディア ファイル

メディア ファイルがない場合は、次の一般公開ファイルを使用できます。これらのファイルは Firebase プロジェクトにないバケットに保存されているため、URL には https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE 形式を使用する必要があります。

テキストと 1 つの画像からテキストを生成する

このサンプルを試す前に、このガイドの始める前にのセクションを完了してください。

Gemini API は、テキストと単一のファイル(この例の画像など)の両方を含むマルチモーダル プロンプトで呼び出すことができます。これらの呼び出しでは、プロンプトでメディアをサポートするモデル(Gemini 2.0 Flash など)を使用する必要があります。

入力ファイルの要件と推奨事項を確認してください。

レスポンスをストリーミングする(generateContentStream)か、結果全体が生成されるまでレスポンスを待機する(generateContent)かを選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

ストリーミングなし

または、ストリーミングではなく結果全体が返されるのを待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学びます。

テキストと複数の画像からテキストを生成する

このサンプルを試す前に、このガイドの始める前にのセクションを完了してください。

Gemini API は、テキストと複数のファイル(この例の画像など)の両方を含むマルチモーダル プロンプトで呼び出すことができます。これらの呼び出しでは、プロンプトでメディアをサポートするモデル(Gemini 2.0 Flash など)を使用する必要があります。

入力ファイルの要件と推奨事項を確認してください。

レスポンスをストリーミングする(generateContentStream)か、結果全体が生成されるまでレスポンスを待機する(generateContent)かを選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

ストリーミングなし

ストリーミングする代わりに、結果全体が返されるまで待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学びます。

テキストと動画からテキストを生成する

このサンプルを試す前に、このガイドの始める前にのセクションを完了してください。

Gemini API は、テキスト ファイルと動画ファイルの両方を含むマルチモーダル プロンプトを使用して呼び出すことができます(この例を参照)。これらの呼び出しでは、プロンプトでメディアをサポートするモデル(Gemini 2.0 Flash など)を使用する必要があります。

入力ファイルの要件と推奨事項を確認してください。

レスポンスをストリーミングする(generateContentStream)か、結果全体が生成されるまでレスポンスを待機する(generateContent)かを選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

ストリーミングなし

または、ストリーミングではなく結果全体が返されるのを待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学びます。

入力ファイルの要件と推奨事項

以下については、サポートされている入力ファイルと Vertex AI Gemini API の要件をご覧ください。

  • リクエストでファイルを提供するさまざまな方法
  • サポートされているファイル形式
  • サポートされている MIME タイプとその指定方法
  • ファイルとマルチモーダル リクエストの要件とベスト プラクティス

Google アシスタントの機能

  • 長いプロンプトをモデルに送信する前に、トークンをカウントする方法を学びます。
  • Cloud Storage for Firebase を設定して、マルチモーダル リクエストに大きなファイルを含め、プロンプトでファイルを提供するより管理されたソリューションを利用できるようにします。ファイルには、画像、PDF、動画、音声を含めることができます。
  • 本番環境の準備を開始します。たとえば、Firebase App Check を設定してGemini API を不正なクライアントによる不正使用から保護します。

Gemini API の他の機能を試す

コンテンツ生成を制御する方法

Vertex AI Studio を使用して、プロンプトとモデル構成をテストすることもできます。

Gemini モデルの詳細

さまざまなユースケースで使用できるモデルと、その割り当てと料金について学びます。


Vertex AI in Firebase の使用感に関するフィードバックを送信する