Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

このページは Cloud Translation API によって翻訳されました。

サポートされている入力ファイルと要件

Firebase AI Logic SDK を使用してアプリから Gemini API を呼び出すと、Gemini モデルにプロンプトを送信して、画像、動画、音声、ドキュメント（PDF など）などのマルチモーダル入力に基づいてテキストを生成できます。

サポートされているファイル形式を使用し、サポートされている MIME タイプを指定する必要があります。また、ファイルとマルチモーダルリクエストが要件を満たし、ベストプラクティスに準拠していることを確認する必要があります。

このページでは、GenerativeModel の使用に固有の次の内容について説明します。

リクエストでファイルを提供するオプション。
次のファイル入力でサポートされている MIME タイプ、ベストプラクティス、制限事項の詳細:
画像 | 動画 | 音声 | ドキュメント（PDF など）。

マルチモーダルリクエストでファイルを提供するオプション

Gemini API プロバイダを選択して、このページでプロバイダ固有のコンテンツを表示します

各マルチモーダルリクエストでは、常に次の情報を指定する必要があります。

ファイルの mimeType。各入力ファイルでサポートされている MIME タイプについては、このページの該当するセクションをご覧ください。
ファイル。ファイルをインラインデータとして指定するか、URL を使用してファイルを指定することができます。

リクエストで指定できるファイルのサイズと数は、入力ファイルのタイプ、ファイルの指定方法、使用するモデルによって異なります（詳細については、このページの各入力ファイルタイプのセクションをご覧ください）。

オプション 1: ファイルをインラインデータとして提供する

インラインデータとして提供されるファイルについては、次の点にご注意ください。

リクエストの合計サイズの上限が 20 MB であるため、インラインデータとして送信できるのは小さいファイルのみです。
ファイルは転送中に base64 にエンコードされます（これによりファイルサイズが増加します）。

ファイルをインラインデータとして含める方法を示す例については、テキストとファイル（マルチモーダル）の入力からテキストを生成するをご覧ください。Android プラットフォームと Apple プラットフォームの SDK では、MIME タイプを指定しなくてもリクエスト内のインライン画像を処理できます。詳細

オプション 2: URL を使用してファイルを提供する

Gemini Developer API を使用する場合に許容される URL のタイプは次のとおりです。

YouTube 動画の URL: YouTube 動画は公開または限定公開である必要があります。

リクエストごとに 1 つの YouTube 動画 URL を指定できます。

画像: 要件、ベストプラクティス、制限事項

画像: 要件

このセクションでは、サポートされている MIME タイプと、画像のリクエストあたりの上限について説明します。

サポートされている MIME タイプ

Gemini マルチモーダルモデルは、次の画像 MIME タイプをサポートしています。

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

リクエストあたりの上限

画像のピクセル数に特に制限はありません。ただし、大きな画像は元のアスペクト比を維持したまま、最大解像度 3,072 x 3,072 に合わせて縮小され、パディングされます。

リクエストあたりの最大ファイル数: 3,000 個の画像ファイル

画像: トークン化

画像のトークンの計算方法は次のとおりです。

画像の両方の寸法が 384 ピクセル以下の場合、258 個のトークンが使用されます。
画像の 1 つの寸法が 384 ピクセルを超える場合、画像はタイルに切り抜かれます。各タイルサイズは、デフォルトで最小の寸法（幅または高さ）を 1.5 で割った値になります。必要に応じて、各タイルは 256 ピクセル以上、768 ピクセル以下になるように調整されます。各タイルは 768x768 にサイズ変更され、258 個のトークンを使用します。

画像: ベストプラクティス

画像を使用する場合は、最適な結果を得るために、次のベストプラクティスと情報を使用してください。

画像内のテキストを検出する必要がある場合は、1 つの画像を使用するプロンプトのほうが、複数の画像を使用するプロンプトよりも適切な結果が得られます。
プロンプトに 1 つの画像が含まれている場合は、リクエスト内でテキストプロンプトの前に画像を配置します。
プロンプトに複数の画像が含まれており、これらの画像をプロンプトの後半で参照する場合、またはモデルレスポンスでモデルが参照する場合は、各画像の前にインデックスを付けると、より良い結果が得られる可能性があります。インデックスには a b c または image 1 image 2 image 3 を使用します。プロンプトでインデックス付き画像を使用する例を次に示します。
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
解像度の高い画像を使用すると、より良い結果が得られます。
プロンプトにいくつかの例を含めます。
画像を適切な向きに回転してから、プロンプトに追加します。
ぼやけた画像は使用しないでください。

画像: 制限事項

Gemini マルチモーダルモデルは多くのマルチモーダルユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

コンテンツの管理: Google の安全に関するポリシーに違反する画像に対する回答は拒否されます。
空間推論: 画像内のテキストやオブジェクトの位置を正確に特定することはできません。オブジェクトの数も推定値しか返されない場合があります。
医療目的での使用: 医療画像（X 線、CT スキャンなど）の解釈や医学的なアドバイスの提供には適していません。
人物認識: このモデルは、画像内の著名人以外の人物を特定することを目的としたものではありません。
精度: 低品質、回転、極端に低解像度の画像を解釈する際に、ハルシネーションや誤りが発生する可能性があります。また、画像ドキュメント内の手書きテキストを解釈する際に、ハルシネーションが発生することもあります。

動画: 要件、ベストプラクティス、制限事項

動画: 要件

このセクションでは、動画でサポートされている MIME タイプとリクエストあたりの上限について説明します。

サポートされている MIME タイプ

Gemini マルチモーダルモデルは、次の動画 MIME タイプをサポートしています。

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

リクエストあたりの上限

リクエストあたりの最大ファイル数: 10 個の動画ファイル

動画: トークン化

動画のトークンの計算方法は次のとおりです。

音声トラックは動画フレームでエンコードされます。また、音声トラックは 1 秒のトランクに分割されます。トランクはそれぞれ 32 個のトークンから構成されます。動画フレームと音声トークンは、タイムスタンプとともにインターリーブされます。タイムスタンプは 5 個のトークンで表されます。
1 フレーム/秒（fps）以下でサンプリングされた動画の場合、動画の最初の 1 時間のタイムスタンプは、動画フレームあたり 5 トークンとして表されます。残りのタイムスタンプは、動画フレームごとに 7 個のトークンで表されます。
1 フレーム/秒（fps）を超えるサンプリングレートの動画の場合、動画の最初の 1 時間のタイムスタンプは、動画フレームあたり 9 個のトークンとして表されます。残りのタイムスタンプは、動画フレームごとに 11 個のトークンで表されます。

動画: ベストプラクティス

動画を使用する場合は、最良の結果を得るために、次のベストプラクティスと情報を使用してください。

プロンプトに 1 つの動画が含まれている場合は、テキストプロンプトの前に動画を配置します。
音声付き動画のタイムスタンプのローカライズが必要な場合は、モデルに「タイムスタンプ形式」で説明されている形式に従ったタイムスタンプを生成させます。

動画: 制限事項

Gemini マルチモーダルモデルは多くのマルチモーダルユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

コンテンツの管理: Google の安全に関するポリシーに違反する動画に対する回答は拒否されます。
非音声の認識: 音声をサポートするモデルでは、音声以外の音を認識する際に誤りが発生する可能性があります。

音声: 要件と制限事項

音声: 要件

このセクションでは、音声でサポートされている MIME タイプとリクエストあたりの上限について説明します。

サポートされている MIME タイプ

Gemini マルチモーダルモデルは、次の音声 MIME タイプをサポートしています。

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

リクエストあたりの上限

リクエストあたりの最大ファイル数: 1 つの音声ファイル

音声: 制限事項

Gemini マルチモーダルモデルは多くのマルチモーダルユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

非音声の認識: 音声をサポートするモデルでは、音声以外の音を認識する際に誤りが発生する可能性があります。
音声のみのタイムスタンプ: 音声のみのファイルのタイムスタンプを正確に生成するには、generation_config で audio_timestamp パラメータを構成する必要があります。

ドキュメント（PDF など）: 要件、ベストプラクティス、制限事項

ドキュメント: 要件

このセクションでは、ドキュメント（PDF など）でサポートされている MIME タイプとリクエストあたりの上限について説明します。

サポートされている MIME タイプ

Gemini マルチモーダルモデルは、次のドキュメント MIME タイプをサポートしています。

PDF - application/pdf
テキスト - text/plain

リクエストあたりの上限

PDF は画像として扱われるため、PDF の 1 ページは 1 つの画像として扱われます。プロンプトで許可されるページ数は、Gemini マルチモーダルモデルがサポートできる画像の数に制限されます。

リクエストあたりの最大ファイル数: 3,000 個のファイル
ファイルあたりの最大ページ数: ファイルあたり 1,000 ページ
ファイルあたりの最大サイズ: 1 ファイルあたり 50 MB

ドキュメント: トークン化

PDF のトークン化

PDF は画像として扱われるため、PDF の各ページは画像と同じ方法でトークン化されます。

また、PDF の費用は Gemini の画像処理の料金に準じます。たとえば、Gemini API 呼び出しで 2 ページの PDF を含めると、入力として 2 つの画像を処理する場合の料金が発生します。

ドキュメント: ベストプラクティス

PDF を使用する場合は、次のベストプラクティスと情報を参考にしてください。

プロンプトに 1 つの PDF が含まれている場合は、リクエスト内でテキストプロンプトの前に PDF を配置します。
ドキュメントが長い場合は、複数の PDF に分割して処理することを検討してください。
スキャンした画像のテキストではなく、テキストとしてレンダリングされたテキストを含む PDF を使用します。この形式では、テキストが機械で読み取り可能になるため、スキャンした画像を PDF にした場合よりも、モデルによる編集、検索、操作が容易になります。これにより、契約書など、テキストの多いドキュメントを扱う際に最適な結果が得られます。

ドキュメント: 制限事項

Gemini マルチモーダルモデルは多くのマルチモーダルユースケースに対応していますが、モデルの制限事項も理解しておく必要があります。

空間推論: PDF 内のテキストやオブジェクトの位置を正確に特定することはできません。オブジェクトの数も推定値しか返されない場合があります。
精度: PDF ドキュメント内の手書きテキストを解釈する際に、ハルシネーションが発生する可能性があります。

サポートされている入力ファイルと要件 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

マルチモーダル リクエストでファイルを提供するオプション

オプション 1: ファイルをインライン データとして提供する

オプション 2: URL を使用してファイルを提供する

画像: 要件、ベスト プラクティス、制限事項

画像: 要件

サポートされている MIME タイプ

リクエストあたりの上限

画像: トークン化

画像: ベスト プラクティス

画像: 制限事項

動画: 要件、ベスト プラクティス、制限事項

動画: 要件

サポートされている MIME タイプ

リクエストあたりの上限

動画: トークン化

動画: ベスト プラクティス

動画: 制限事項

音声: 要件と制限事項

音声: 要件

サポートされている MIME タイプ

リクエストあたりの上限

音声: 制限事項

ドキュメント（PDF など）: 要件、ベスト プラクティス、制限事項

ドキュメント: 要件

サポートされている MIME タイプ

リクエストあたりの上限

ドキュメント: トークン化

ドキュメント: ベスト プラクティス

ドキュメント: 制限事項

サポートされている入力ファイルと要件

マルチモーダルリクエストでファイルを提供するオプション

オプション 1: ファイルをインラインデータとして提供する

画像: 要件、ベストプラクティス、制限事項

画像: ベストプラクティス

動画: 要件、ベストプラクティス、制限事項

動画: ベストプラクティス

ドキュメント（PDF など）: 要件、ベストプラクティス、制限事項

ドキュメント: ベストプラクティス