Gemini API を使用してマルチモーダル プロンプトからテキストを生成する


Vertex AI in Firebase SDK を使用してアプリから Gemini API を呼び出す場合、マルチモーダル入力に基づいてテキストを生成するように Gemini モデルに指示できます。マルチモーダル プロンプトには、テキスト、画像、PDF、動画、音声など、複数のモダリティ(または入力の種類)を含めることができます。

マルチモーダル プロンプトのテストと反復処理には、Vertex AI Studio を使用することをおすすめします。

始める前に

まだ行っていない場合は、Vertex AI in Firebase SDK のスタートガイドを完了してください。以下の手順をすべて完了していることを確認します。

  1. Blaze お支払いプランの使用や必要な API の有効化など、新規または既存の Firebase プロジェクトを設定します。

  2. アプリを Firebase に接続します。アプリの登録や Firebase 構成のアプリへの追加などを行います。

  3. SDK を追加し、アプリで Vertex AI サービスと生成モデルを初期化します。

アプリを Firebase に接続し、SDK を追加して、Vertex AI サービスと生成モデルを初期化したら、Gemini API を呼び出す準備が整います。

テキストと 1 つの画像からテキストを生成する

このサンプルを試す前に、このガイドの始める前にセクションを完了してください。

Gemini API は、テキストと単一のファイル(この例に示す画像など)の両方を含むマルチモーダル プロンプトで呼び出すことができます。これらの呼び出しでは、マルチモーダル プロンプトをサポートするモデル(Gemini 1.5 Pro など)を使用する必要があります。

サポートされているファイルには、画像、PDF、動画、音声などがあります。入力ファイルの要件と推奨事項を確認してください。

レスポンスをストリーミングするか(generateContentStream)、結果全体が生成されるまでレスポンスを待つか(generateContent)を選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

ストリーミングなし

または、ストリーミングするのではなく、結果全体が返されるのを待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学びます。

テキストと複数の画像からテキストを生成する

このサンプルを試す前に、このガイドの始める前にセクションを完了してください。

Gemini API は、テキストと複数のファイル(この例の画像など)の両方を含むマルチモーダル プロンプトで呼び出すことができます。これらの呼び出しでは、マルチモーダル プロンプトをサポートするモデル(Gemini 1.5 Pro など)を使用する必要があります。

サポートされているファイルには、画像、PDF、動画、音声などがあります。入力ファイルの要件と推奨事項を確認してください。

レスポンスをストリーミングするか(generateContentStream)、結果全体が生成されるまでレスポンスを待つか(generateContent)を選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

ストリーミングなし

ストリーミングする代わりに、結果全体が返されるまで待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学習します。

テキストと動画からテキストを生成する

このサンプルを試す前に、このガイドの始める前にセクションを完了してください。

この例に示すように、テキストと 1 つの動画の両方を含むマルチモーダル プロンプトで Gemini API を呼び出すことができます。これらの呼び出しでは、マルチモーダル プロンプトをサポートするモデル(Gemini 1.5 Pro など)を使用する必要があります。

入力ファイルの要件と推奨事項を確認してください。

レスポンスをストリーミングする(generateContentStream)か、結果全体が生成されるまでレスポンスを待機する(generateContent)かを選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

ストリーミングなし

または、ストリーミングするのではなく、結果全体が返されるのを待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学びます。

入力ファイルの要件と推奨事項

サポートされているファイル形式、MIME タイプの指定方法、ファイルとマルチモーダル リクエストが要件を満たしていることを確認する方法、ベスト プラクティスに従う方法については、Vertex AI Gemini API でサポートされている入力ファイルと要件をご覧ください。

Google アシスタントの機能

  • 長いプロンプトをモデルに送信する前に、トークンをカウントする方法を学びます。
  • Cloud Storage for Firebase を設定してCloud Storage URL を使用してマルチモーダル リクエストに大きなファイルを含めることができるようにします。ファイルには、画像、PDF、動画、音声を含めることができます。
  • 不正なクライアントによる Gemini API の不正使用から保護するために Firebase App Check を設定するなど、本番環境の準備を検討します。

Gemini API のその他の機能を試す

コンテンツ生成を制御する方法

Vertex AI Studio を使用して、プロンプトとモデル構成を試すこともできます。

Gemini モデルの詳細

さまざまなユースケースで使用可能なモデルと、その割り当てと料金について学びます。


Vertex AI in Firebase の使用感に関するフィードバックを送信する