Vertex AI Gemini DesAPI 支援的輸入檔案和規定

使用 Vertex AI in Firebase SDK 從應用程式呼叫 Vertex AI Gemini API 時,您可以提示 Gemini 模型根據多模態輸入內容產生文字。多模態提示可包含多種模態 (或輸入類型),例如文字、圖片、PDF、影片和音訊。

針對輸入內容的非文字部分 (例如媒體檔案),您必須使用支援的檔案類型、指定支援的 MIME 類型,並確保檔案和多模態要求符合規定並遵循最佳做法。

本頁面將說明以下內容:

在多模態要求中提供檔案的選項

在每個多模態要求中,您都必須提供下列項目:

您可以在要求中提供的檔案大小和數量,取決於輸入檔案類型、提供檔案的方式和使用的模型 (詳情請參閱本頁中各輸入檔案類型的相關章節)。

選項 1:使用網址或 URI 提供檔案

以下是可接受的網址或 URI 類型:

  • Cloud Storage for Firebase 儲存格網址:檔案的網址必須是公開,或是登入使用者或用戶端必須具備足夠的檔案存取權。進一步瞭解 Cloud Storage for Firebase優點網址規定程式碼範例

  • Google Cloud Storage 儲存空間網址:檔案網址必須是公開

  • 瀏覽器/HTTP 網址:檔案網址必須可供大眾閱讀。例如媒體代管網站的網址、直接顯示媒體的網址 (而非代管媒體的網頁),或是已發布的 Google 雲端硬碟或 Google Workspace 檔案。

  • YouTube 影片網址:YouTube 影片必須是公開或不公開

如要進一步瞭解網址和 URI 的相關規定,請參閱 Google Cloud 說明文件。

選項 2:以內嵌資料的形式提供檔案

請注意下列以內嵌資料提供的檔案:

  • 由於要求總大小上限為 20 MB,因此只能傳送小型檔案做為內嵌資料。

  • 檔案會在傳輸期間編碼為 Base64 (這會增加檔案大小)。

如需如何將檔案納入內嵌資料的範例,請參閱「使用 Gemini API 從多模態提示產生文字」。



圖片:相關規定、最佳做法和限制

圖片:規定

在本節中,您將瞭解圖片支援的 MIME 類型,以及每項圖片要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列圖片 MIME 類型:

圖片 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

每項要求的限制

圖片的像素數量沒有特定限制。不過,較大的圖片會縮小並填滿,以便符合 3072 x 3072 的最大解析度,同時保留原始顯示比例。

以下是提示要求中允許的圖片檔案數量上限:

  • Gemini 1.0 Pro Vision:16 張圖片
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:3,000 張圖片

圖片:權杖化

以下是圖片的符記計算方式:

  • Gemini 1.0 Pro Vision:每張圖片占用 258 個符記。
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro
    • 如果圖片的長邊和短邊都小於或等於 384 像素,則會使用 258 個符記。
    • 如果圖片的一個尺寸大於 384 像素,系統會將圖片裁剪成圖塊。每個圖塊大小的預設值為最小尺寸 (寬度或高度) 除以 1.5。如有需要,系統會調整每個圖塊,使其大小不小於 256 像素,也不大於 768 像素。然後,每個資訊方塊的大小都會調整為 768x768,並使用 258 個符記。

圖片:最佳做法

使用圖片時,請遵循下列最佳做法和資訊,以獲得最佳結果:

  • 如果您想在圖片中偵測文字,請使用單張圖片的提示,這樣比使用多張圖片的提示更能獲得更好的結果。
  • 如果提示包含單一圖片,請在要求中將圖片放在文字提示之前。
  • 如果提示包含多張圖片,且您想在稍後的提示中參照這些圖片,或讓模型在模型回應中參照這些圖片,建議您在圖片前為每張圖片指定索引。請為索引使用 a b cimage 1 image 2 image 3。以下是使用索引圖片的提示範例:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 使用解析度較高的圖片,可獲得更好的結果。
  • 在提示中加入幾個範例。
  • 請先將圖片旋轉至正確方向,再將圖片新增至提示中。
  • 請避免使用模糊的圖片。

圖片:限制

雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:

  • 內容審核:模特兒拒絕針對違反安全政策的圖片提供答案。
  • 空間推理:模型無法精確定位圖片中的文字或物件。可能只會傳回物件的近似計數。
  • 醫療用途:模型不適合用於解讀醫學圖像 (例如 X 光和 CT 掃描),也不適合用於提供醫療建議。
  • 人物辨識:模型並非用於辨識圖片中非名人的人物。
  • 準確度:模型在解讀低品質、旋轉或極低解析度的圖片時,可能會產生幻覺或出錯。模型在解讀圖像文件中的手寫文字時,也可能會產生錯誤。



影片:規定、最佳做法和限制

影片:規定

本節將說明支援的 MIME 類型,以及影片的每項要求限制。

支援的 MIME 類型

Gemini 多模態模型支援下列影片 MIME 類型:

影片 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

每項要求的限制

以下是提示要求中允許的影片檔案數量上限:

  • Gemini 1.0 Pro Vision:1 個影片檔案
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:10 個影片檔案

影片:權杖化

以下是影片的符記計算方式:

  • 所有 Gemini 多模態模型:影片的取樣率為 每秒 1 格 (fps)。每個影片影格會佔用 258 個符記。
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:音訊軌會使用影片影格編碼。音訊曲目也會細分為 1 秒的幹線,每個幹線代表 32 個符記。影片影格和音訊符記會與其時間戳記交錯排列。時間戳記以 7 個符記表示。

影片:最佳做法

使用影片時,請參考下列最佳做法和資訊,以獲得最佳成效:

  • 如果提示包含單一影片,請將影片放在文字提示之前。
  • 如果需要在含有音訊的影片中進行時間戳記本地化,請要求模型以 MM:SS 格式產生時間戳記,其中前兩位數字代表分鐘,後兩位數字代表秒數。針對詢問時間戳記的問題,請使用相同的格式。
  • 如果您使用 Gemini 1.0 Pro Vision,請注意下列事項:

    • 每個提示最多使用一支影片。
    • 模型只會處理影片前兩分鐘的資訊。
    • 模型會將影片處理為影片中不連續的圖片影格。不含音訊。如果您發現模型遺漏了影片中的部分內容,請嘗試縮短影片長度,讓模型擷取更多影片內容。
    • 模型不會處理任何音訊資訊或時間戳記中繼資料。因此,在需要音訊輸入的用途 (例如音訊字幕) 或時間相關資訊 (例如速度或節奏) 的情況下,模型的效能可能不佳。

影片:限制

雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:

  • 內容審核:模特兒拒絕針對違反安全政策的影片提供答案。
  • 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
  • 高速動作:由於固定的 每秒 1 格 (fps) 取樣率,模型可能會在解讀影片中的高速動作時出錯。
  • 轉錄標點符號(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。



音訊:規定和限制

音訊:必要條件

在本節中,瞭解音訊支援的 MIME 類型和每項要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列音訊 MIME 類型:

音訊 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

每項要求的限制

您最多可以在提示要求中加入 1 個音訊檔案

音訊:限制

雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:

  • 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
  • 純音訊時間戳記:如要準確產生純音訊檔案的時間戳記,您必須在 generation_config 中設定 audio_timestamp 參數。
  • 轉錄標點符號(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。



文件 (例如 PDF 檔案):相關規定、最佳做法和限制

文件:規定

本節將說明系統支援的 MIME 類型,以及每項文件 (例如 PDF) 的請求限制。

支援的 MIME 類型

Gemini 多模態模型支援下列文件 MIME 類型:

文件 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf
文字 - text/plain

每項要求的限制

PDF 會視為圖片,因此 PDF 的單一頁面會視為一張圖片。提示中允許的頁面數量,取決於模型可支援的圖片數量:

  • Gemini 1.0 Pro Vision:16 頁
  • Gemini 1.5 Pro 和 Gemini 1.5 Flash:1,000 頁

文件:權杖化

PDF 代碼化

PDF 會視為圖片,因此 PDF 的每個頁面都會以與圖片相同的方式進行符記。

此外,PDF 的費用會依據 Gemini 圖片定價而定。舉例來說,如果您在 Gemini API 呼叫中加入兩頁 PDF,就會產生處理兩張圖片的輸入費用。

純文字代碼化

純文字文件會以文字符號化。舉例來說,如果您在 Gemini API 呼叫中加入 100 字的純文字文件,系統就會收取 100 個字的輸入費用。

文件:最佳做法

使用 PDF 時,請參考下列最佳做法和資訊,以獲得最佳結果:

  • 如果提示包含單一 PDF 檔案,請在要求中將 PDF 檔案放在文字提示之前。
  • 如果您有長篇文件,建議將其拆成多個 PDF 檔案來處理。
  • 使用以文字呈現的文字建立的 PDF,而非使用掃描圖片中的文字。這個格式可確保文字可供機器讀取,讓模型更容易編輯、搜尋及操作,相較於掃描的圖像 PDF 檔案。處理大量文字的文件 (例如合約) 時,這項做法可提供最佳結果。

文件:限制

雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:

  • 空間推理:模型無法精確找出 PDF 中的文字或物件。可能只會傳回物件的近似計數。
  • 準確度:模型在解讀 PDF 文件中的手寫文字時,可能會產生錯誤。