サポートされている入力ファイルと Vertex AI Gemini API の要件

Vertex AI Gemini API Vertex AI in Firebase SDK を使用している場合は、Gemini モデルにテキストの生成を 基づいています。マルチモーダル プロンプトには複数のモダリティを含めることができます テキスト、画像、PDF、動画、音声などが含まれます。

入力のテキスト以外の部分(メディア ファイルなど)には、 サポートされている MIME タイプを指定し、 要件を満たし、ベスト プラクティスに沿っていることを確認します。

このページでは、サポートされている MIME タイプ、ベスト プラクティス、制限事項について説明します。 次のとおりです。

Vertex AI in Firebase SDK に固有の要件

Vertex AI in Firebase 個の SDK の場合、リクエストの最大サイズは 20 MB。リクエストが大きすぎると、HTTP 413 エラーが発生します。



イメージ: 要件、ベスト プラクティス、制限事項

画像: 要件

このセクションでは、サポートされている MIME タイプと、リクエストごとの 作成します。

サポートされている MIME タイプ

Gemini マルチモーダル モデルは、次の画像 MIME タイプをサポートしています。

画像の MIME タイプ Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg

リクエストごとの上限

画像のピクセル数に特に制限はありません。ただし、 大きな画像は 3,072 x の最大解像度に合わせて縮小され、パディングされます。 3072 に変換して、元のアスペクト比を維持できます。

プロンプト リクエストで許可される画像ファイルの最大数は次のとおりです。

  • Gemini 1.0 Pro Vision: 16 枚の画像
  • Gemini 1.5 Flash と Gemini 1.5 Pro: 3,000 枚の画像

画像: トークン化

画像のトークンは次のように計算されます。

  • Gemini 1.0 Pro Vision: 各画像は 使用できます。
  • Gemini 1.5 Flash と Gemini 1.5 Pro: <ph type="x-smartling-placeholder">
      </ph>
    • 画像の両寸法が 384 ピクセル以下の場合は、 258 トークンが使用されます。
    • 画像の 1 次元が 384 ピクセルを超える場合、 画像はタイルに切り抜かれます。各タイルサイズはデフォルトで 寸法(幅または高さ)を 1.5 で割った値です。必要に応じて、各タイルは 256 ピクセル以上、 768 ピクセル。各タイルは 768x768 にサイズ変更され、258 個のトークンが使用されます。

画像: ベスト プラクティス

画像を使用する場合は、次のベスト プラクティスと 最適な結果:

  • 画像内のテキストを検出する場合は、1 つの画像を含むプロンプトを使用して、 複数の画像を使用するプロンプトよりも 良い結果が得られます
  • プロンプトに 1 つの画像が含まれている場合は、テキストの前に画像を配置します 表示されます。
  • プロンプトに複数の画像が含まれていて、それらを参照する場合 またはモデルのレスポンスでモデルに参照させることができます。 各画像の前にインデックスを付けると便利です。使用 a b c または image 1 image 2 image 3 指定します。次に、アプリケーションでインデックス登録された画像を使用する例を示します。 prompt:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 高解像度の画像を使用する良い結果が得られます
  • プロンプトにいくつかの例を含めます。
  • 画像を適切な向きに回転してから、 表示されます。
  • ぼやけた画像は使用しないでください。

画像: 制限事項

Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

  • コンテンツ管理: モデルが回答の提供を拒否する 画像に重点を置いてください
  • 空間推論: モデルの位置を正確に特定できない 画像内のオブジェクトです。オブジェクトの数も推定値しか返されない場合があります。
  • 医療目的での使用: モデルの解釈には適していない 医療画像(X 線、CT スキャンなど)、または医療画像の提供 できます。
  • 人物認識: このモデルは、トレーニング プロセスでの 画像に含まれる有名人以外の人物を識別できます
  • 精度: モデルがハルシネーションを起こしたり、間違いを犯したりする可能性がある これは、低画質の画像、回転画像、極端に低解像度の画像の解釈で使用します。 また、手書き入力のテキストを解釈する際に、ハルシネーションが発生することもあります。 作成します。



動画: 要件、ベスト プラクティス、制限事項

動画: 要件

このセクションでは、サポートされている MIME タイプと、リクエストごとの 動画をご覧ください。

サポートされている MIME タイプ

Gemini マルチモーダル モデルは、次の動画 MIME タイプをサポートしています。

動画の MIME タイプ Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/mov
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

リクエストごとの上限

プロンプト リクエストで許可される動画ファイルの最大数は次のとおりです。

  • Gemini 1.0 Pro Vision: 1 個の動画ファイル
  • Gemini 1.5 Flash と Gemini 1.5 Pro: 10 個の動画ファイル

動画: トークン化

動画のトークンの計算方法は次のとおりです。

  • すべての Gemini マルチモーダル モデル: 動画は 1 秒あたり 1 フレーム(fps)でサンプリングされます。動画フレームごとに 258 個のトークンが使用されます。
  • Gemini 1.5 Flash と Gemini 1.5 Pro: 音声トラックがエンコードされています。 必要があります。また、オーディオ トラックは 1 秒のトランクに分割されます。トランクはそれぞれ 32 個のトークンから構成されます。動画フレームと音声トークンは、タイムスタンプとともにインターリーブされます。タイムスタンプは 7 個のトークンで表されます。

動画: ベスト プラクティス

動画を使用する場合は、最良の結果を得るために、次のベスト プラクティスと情報を使用してください。

  • プロンプトに 1 つの動画が含まれている場合は、テキスト プロンプトの前に動画を配置します。
  • 音声付き動画のタイムスタンプのローカライズが必要な場合は、モデルに MM:SS 形式のタイムスタンプを生成させます。最初の 2 桁が分、最後の 2 桁が秒を表します。タイムスタンプに関する質問にも同じ形式を使用します。
  • Gemini 1.0 Pro Vision を使用している場合は、次の点に注意してください。

    • 1 つのプロンプトに複数の動画を使用しないことをおすすめします。
    • モデルは、動画の最初の 2 分間の情報のみを処理します。
    • このモデルは、動画を、動画の非連続な画像フレームとして処理します。音声は含まれません。モデルで動画の一部のコンテンツが欠落している場合は、動画を短くして、モデルが動画コンテンツの大部分をキャプチャできるようにします。
    • モデルは、音声情報やタイムスタンプ メタデータを処理しません。このため、字幕読み上げ音声や時間関連の情報(スピードやリズムなど)など、音声入力が必要なユースケースでは、モデルが適切に機能しない場合があります。

動画: 制限事項

Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

  • コンテンツの管理: Google の安全に関するポリシーに違反する動画に対する回答は拒否されます。
  • 非音声の認識: 音声をサポートするモデルでは、音声以外の音を認識する際に誤りが発生する可能性があります。
  • 高速モーション: サンプリング レートが 1 秒あたり 1 フレーム(fps)に固定されているため、動画内の高速モーションを認識する際に誤りが発生する可能性があります。
  • 音声文字変換の句読点: (Gemini 1.5 Flash を使用している場合)モデルによっては、 は、句読点を含まない音声文字変換を返します。



音声: 要件と制限事項

音声: 要件

このセクションでは、サポートされている MIME タイプと、リクエストごとの 生成できます。

サポートされている MIME タイプ

Gemini マルチモーダル モデルは、次の音声 MIME タイプをサポートしています。

音声 MIME タイプ Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

リクエストごとの上限

プロンプト リクエストには、最大で 1 つの音声ファイルを含めることができます。

オーディオ: 制限事項

Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

  • 非音声の認識: 音声をサポートするモデルでは、音声以外の音を認識する際に誤りが発生する可能性があります。
  • 音声のみのタイムスタンプ: 音声をサポートするモデルは、音声ファイルを含むリクエストのタイムスタンプを正確に生成できません。これには、セグメントと一時的なローカライズ タイムスタンプが含まれます。音声付き動画を含む入力に対して、タイムスタンプを正確に生成できます。
  • 音声文字変換の句読点: (Gemini 1.5 Flash を使用している場合)モデルによっては、 は、句読点を含まない音声文字変換を返します。



ドキュメント(PDF など): 要件、ベスト プラクティス、制限事項

ドキュメント: 要件

このセクションでは、サポートされている MIME タイプと、リクエストごとの 保存できます。

サポートされている MIME タイプ

Gemini マルチモーダル モデルは、次のドキュメント MIME タイプをサポートしています。

ドキュメントの MIME タイプ Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf

リクエストごとの上限

PDF は画像として扱われるため、PDF の 1 ページは 1 つの画像として扱われます。プロンプトで許可されるページ数は、モデルがサポートできる画像の数に制限されます。

  • Gemini 1.0 Pro Vision: 16 ページ
  • Gemini 1.5 Pro と Gemini 1.5 Flash: 1,000 ページ

ドキュメント: トークン化

PDF は画像として扱われるため、PDF の各ページは画像と同じ方法でトークン化されます。

また、PDF の費用は Gemini の画像処理の料金に準じます。たとえば、Gemini API 呼び出しで 2 ページの PDF を含めると、入力として 2 つの画像を処理する場合の料金が発生します。

ドキュメント: ベスト プラクティス

PDF を使用する場合は、次のベスト プラクティスと情報を参考にしてください。

  • プロンプトに 1 つの PDF が含まれている場合は、リクエスト内でテキスト プロンプトの前に PDF を配置します。
  • ドキュメントが長い場合は、複数の PDF に分割して処理することを検討してください。
  • スキャンした画像のテキストではなく、テキストとしてレンダリングされたテキストを含む PDF を使用します。この形式では、テキストが機械で判読可能になるため、スキャンした画像を PDF にした場合よりも、モデルによる編集、検索、操作が容易になります。これにより、契約書など、テキストの多いドキュメントを扱う際に最適な結果が得られます。

ドキュメント: 制限事項

Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

  • 空間推論: PDF 内のテキストやオブジェクトの位置を正確に特定することはできません。オブジェクトの数も推定値しか返されない場合があります。
  • 精度: PDF ドキュメント内の手書きテキストを解釈する際に、ハルシネーションが発生する可能性があります。