Vertex AI for Firebase SDK を使用してアプリから Vertex AI Gemini API を呼び出す場合、マルチモーダル入力に基づいてテキストを生成するように Gemini モデルに指示できます。マルチモーダル プロンプトには、テキスト、画像、PDF、動画、音声など、複数のモダリティ(または入力の種類)を含めることができます。
入力のテキスト以外の部分(メディア ファイルなど)については、サポートされているファイル形式を使用し、サポートされている MIME タイプを指定する必要があります。また、ファイルとマルチモーダル リクエストが要件を満たし、ベスト プラクティスに従っている必要があります。
サポートされている入力ファイルはモデルによって異なり、画像、PDF、動画、音声などがあります。
- サポートされている動画入力もモデルによって異なり、フレームのみ、または音声付きのフレームが含まれる場合があります。
入力ファイルとマルチモーダル リクエストの要件とベスト プラクティス:
Gemini モデルの詳細では、モデルに基づいてサポートされているファイルの要件(最大ファイル数、最大ファイルサイズなど)の簡単な概要を確認できます。
Google Cloud のドキュメントでは、入力ファイルとマルチモーダル リクエストの要件とベスト プラクティスに関する詳細情報(サポートされている MIME タイプ、リクエストで入力ファイルを提供するタイミングなど)を確認できます。
Vertex AI for Firebase SDK に固有の要件
Vertex AI for Firebase SDK の場合、リクエストの最大サイズは 20 MB です。リクエストが大きすぎると、HTTP 413 エラーが発生します。
ファイルのサイズが 20 MB を超える場合は、Cloud Storage for Firebase の URL を使用してマルチモーダル リクエストにファイルを含めます。
ファイルのサイズが小さい場合は、多くの場合、インライン データとして直接渡すことができます。ただし、インライン データとして提供されたファイルは転送中に base64 でエンコードされるため、リクエストのサイズが増加します。ファイルをインライン データとして含める方法を示す例については、Gemini API を使用してマルチモーダル プロンプトからテキストを生成するをご覧ください。