Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

本頁面由 Cloud Translation API 翻譯而成。

支援的輸入檔案和相關規定

使用 Firebase AI Logic SDK 從應用程式呼叫 Gemini API 時，您可以提示 Gemini 模型根據多模態輸入內容 (例如圖片、影片、音訊和文件 (如 PDF)) 生成文字。

您必須使用支援的檔案類型、指定支援的 MIME 類型，並確保檔案和多模態要求符合規定，且遵循最佳做法。

本頁面專門說明如何使用 GenerativeModel，並介紹下列主題：

在要求中提供檔案的選項。
以下檔案輸入內容的支援 MIME 類型、最佳做法和限制：
圖片 | 影片 | 音訊 | 文件 (例如 PDF)。

在多模態要求中提供檔案的選項

選取 Gemini API 供應商，即可在這個頁面查看供應商專屬內容

在每個多模態要求中，您都必須提供下列項目：

檔案的 mimeType。如要瞭解各個輸入檔案支援的 MIME 類型，請參閱本頁的適用章節。
檔案。您可以將檔案提供為內嵌資料，或使用檔案的網址提供檔案。

您可以在要求中提供的檔案大小和數量，取決於輸入檔案類型、檔案提供方式和所用模型 (詳情請參閱本頁各輸入檔案類型部分)。

方法 1：以內嵌資料形式提供檔案

請注意以下事項：

由於要求總大小限制為 20 MB，因此只能以內嵌資料的形式傳送小型檔案。
檔案在傳輸過程中會編碼為 Base64 (這會增加檔案大小)。

如需如何將檔案做為內嵌資料的範例，請參閱「從文字和檔案 (多模態) 輸入內容生成文字」。請注意，Android 和 Apple 平台的 SDK 可處理要求中的內嵌圖片，無需指定 MIME 類型。瞭解詳情。

選項 2：使用網址提供檔案

使用 Gemini Developer API 時，可接受的網址類型如下：

YouTube 影片網址：YouTube 影片必須為公開或不公開。

每個要求只能指定一個 YouTube 影片網址。

圖片：規定、最佳做法和限制

圖片：規定

在本節中，您將瞭解圖片支援的 MIME 類型，以及每項要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列圖片 MIME 類型：

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

每個要求的限制

圖片的像素數量沒有具體限制，不過，系統會縮小較大的圖片，並加上邊框，以符合 3072 x 3072 的最大解析度，同時保留原始長寬比。

每項要求最多可上傳 3,000 個圖片檔案

圖片：權杖化

圖片的權杖計算方式如下：

如果圖片的兩個維度都小於或等於 384 像素，則會使用 258 個權杖。
如果圖片的其中一個尺寸大於 384 像素，系統就會將圖片裁剪成圖塊。每個圖塊大小預設為最小維度 (寬度或高度) 除以 1.5。如有需要，系統會調整每個圖塊，確保圖塊大小介於 256 像素和 768 像素之間。然後，每個圖塊都會調整為 768x768 大小，並使用 258 個權杖。

圖片：最佳做法

使用圖片時，請遵循下列最佳做法和資訊，以獲得最佳成效：

如要偵測圖片中的文字，請使用單張圖片的提示，這樣比使用多張圖片的提示效果更好。
如果提示包含單一圖片，請將圖片放在要求中的文字提示之前。
如果提示包含多張圖片，且您想在提示中稍後參照這些圖片，或讓模型在模型回覆中參照這些圖片，建議先為每張圖片加上索引。使用 a b c 或 image 1 image 2 image 3 做為索引。以下是在提示中使用索引圖片的範例：
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
使用高解析度圖片，可獲得較佳結果。
在提示中加入幾個範例。
先將圖片旋轉至正確方向，再加入提示。
避免使用模糊的圖片。

圖片：限制

雖然Gemini多模態模型在許多多模態應用情境中都非常強大，但請務必瞭解模型的限制：

內容審查：模型會拒絕提供違反安全政策的圖片相關答案。
空間推理：模型無法精確找出圖片中的文字或物件。他們可能只會傳回物件的概略計數。
醫療用途：模型不適合用於解讀醫學圖像 (例如 X 光片和 CT 掃描)，也不適合提供醫療建議。
人物辨識：模型不應辨識圖片中非名人的身分。
準確度：解讀品質不佳、旋轉或極低解析度的圖片時，模型可能會產生幻覺或出錯。模型在解讀圖片文件中的手寫文字時，也可能會產生錯覺。

影片：規定、最佳做法和限制

影片：相關規定

在本節中，您將瞭解影片支援的 MIME 類型，以及每個要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列影片 MIME 類型：

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
每加侖英里數 - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

每個要求的限制

每項要求最多可上傳 10 個影片檔案

影片：權杖化

影片的權杖計算方式如下：

音軌是透過視訊影格編碼，音軌也會細分成1 秒的片段，每個片段包含 32 個權杖。影片影格和音訊符記會與時間戳記交錯。時間戳記會以 5 個權杖表示。
如果影片的取樣率為每秒 1 格 (fps) 以下，影片前一小時的時間戳記會以每個影片影格 5 個權杖表示。其餘時間戳記則以每個影片影格 7 個權杖表示。
如果影片的取樣率高於 1 格/秒 (fps)，影片前一小時的時間戳記會以每個影片影格 9 個權杖表示。其餘時間戳記則以每個影片影格 11 個權杖表示。

影片：最佳做法

使用影片時，請參考下列最佳做法和資訊，盡量提高成效：

如果提示只包含單一影片，請將影片放在文字提示之前。
如果需要為附有音訊的影片提供本地化時間戳記，請要求模型生成符合「時間戳記格式」所述格式的時間戳記。

影片：限制

雖然Gemini多模態模型在許多多模態應用情境中都非常強大，但請務必瞭解模型的限制：

內容審核：如果影片違反安全政策，模型會拒絕提供答案。
辨識非語音聲音：支援音訊的模型可能會誤認非語音聲音。

音訊：規定和限制

音訊：需求條件

在本節中，瞭解音訊支援的 MIME 類型和每個要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列音訊 MIME 類型：

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

每個要求的限制

每項要求最多可上傳的檔案數：1 個音訊檔案

音訊：限制

雖然Gemini多模態模型在許多多模態應用情境中都非常強大，但請務必瞭解模型的限制：

辨識非語音聲音：支援音訊的模型可能會誤認非語音聲音。
純音訊時間戳記：如要為純音訊檔案準確產生時間戳記，請在 generation_config 中設定 audio_timestamp 參數。

文件 (例如 PDF)：規定、最佳做法和限制

文件：規定

在本節中，您將瞭解文件 (例如 PDF) 支援的 MIME 類型，以及每個要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列文件 MIME 類型：

PDF - application/pdf
傳送訊息到 text/plain

每個要求的限制

PDF 會視為圖片，因此 PDF 的單一頁面會視為一張圖片。提示中允許的頁數上限，取決於Gemini多模態模型支援的圖片數量。

每項要求的檔案數量上限：3,000 個檔案
每個檔案的頁數上限：每個檔案 1,000 頁
每個檔案的大小上限：50 MB

文件：權杖化

PDF 權杖化

PDF 會視為圖片，因此系統會以處理圖片的方式，為 PDF 的每個頁面建立權杖。

此外，PDF 的費用也遵循Gemini圖片定價。舉例來說，如果您在 Gemini API 呼叫中加入兩頁的 PDF，系統會向您收取處理兩張圖片的輸入費用。

文件：最佳做法

使用 PDF 時，請參考下列最佳做法和資訊，以獲得最佳結果：

如果提示包含單一 PDF，請在要求中將 PDF 放在文字提示之前。
如果文件很長，建議將其拆成多個 PDF 檔案，再進行處理。
使用以文字形式呈現文字的 PDF，而非掃描圖片中的文字。這種格式可確保文字能以機器可讀取的形式呈現，因此與掃描的 PDF 圖片相比，模型更容易編輯、搜尋及處理文字。處理合約等文字量大的文件時，這項做法可提供最佳結果。

文件：限制

雖然Gemini多模態模型在許多多模態應用情境中都非常強大，但請務必瞭解模型的限制：

空間推理：模型無法精確找出 PDF 中的文字或物件。他們可能只會傳回物件的概略計數。
準確度：模型在解讀 PDF 文件中的手寫文字時，可能會產生幻覺。

支援的輸入檔案和相關規定 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

在多模態要求中提供檔案的選項

方法 1：以內嵌資料形式提供檔案

選項 2：使用網址提供檔案

圖片：規定、最佳做法和限制

圖片：規定

支援的 MIME 類型

每個要求的限制

圖片：權杖化

圖片：最佳做法

圖片：限制

影片：規定、最佳做法和限制

影片：相關規定

支援的 MIME 類型

每個要求的限制

影片：權杖化

影片：最佳做法

影片：限制

音訊：規定和限制

音訊：需求條件

支援的 MIME 類型

每個要求的限制

音訊：限制

文件 (例如 PDF)：規定、最佳做法和限制

文件：規定

支援的 MIME 類型

每個要求的限制

文件：權杖化

文件：最佳做法

文件：限制

支援的輸入檔案和相關規定