使用 Vertex AI in Firebase SDK 從應用程式呼叫 Vertex AI Gemini API 時,您可以提示 Gemini 模型根據多模態輸入內容產生文字。多模態提示可包含多種模態 (或輸入類型),例如文字、圖片、PDF、影片和音訊。
針對輸入內容的非文字部分 (例如媒體檔案),您必須使用支援的檔案類型、指定支援的 MIME 類型,並確保檔案和多模態要求符合規定並遵循最佳做法。
本頁面將說明以下內容:
以下是支援的 MIME 類型、最佳做法和限制的詳細資訊,適用於下列檔案輸入:
圖片 | 影片 | 音訊 | 文件 (例如 PDF)。
在多模態要求中提供檔案的選項
在每個多模態要求中,您都必須提供下列項目:
檔案為
mimeType
。請參閱本頁適用部分,瞭解各輸入檔案支援的 MIME 類型。檔案。您可以使用檔案的網址 / URI 提供檔案,也可以將檔案做為內嵌資料提供。
您可以在要求中提供的檔案大小和數量,取決於輸入檔案類型、提供檔案的方式和使用的模型 (詳情請參閱本頁中各輸入檔案類型的相關章節)。
選項 1:使用網址或 URI 提供檔案
以下是可接受的網址或 URI 類型:
Cloud Storage for Firebase 儲存格網址:檔案的網址必須是公開,或是登入使用者或用戶端必須具備足夠的檔案存取權。進一步瞭解 Cloud Storage for Firebase 的優點、網址規定和程式碼範例。
Google Cloud Storage 儲存空間網址:檔案網址必須是公開。
瀏覽器/HTTP 網址:檔案網址必須可供大眾閱讀。例如媒體代管網站的網址、直接顯示媒體的網址 (而非代管媒體的網頁),或是已發布的 Google 雲端硬碟或 Google Workspace 檔案。
YouTube 影片網址:YouTube 影片必須是公開或不公開。
如要進一步瞭解網址和 URI 的相關規定,請參閱 Google Cloud 說明文件。
選項 2:以內嵌資料的形式提供檔案
請注意下列以內嵌資料提供的檔案:
由於要求總大小上限為 20 MB,因此只能傳送小型檔案做為內嵌資料。
檔案會在傳輸期間編碼為 Base64 (這會增加檔案大小)。
如需如何將檔案納入內嵌資料的範例,請參閱「使用 Gemini API 從多模態提示產生文字」。
圖片:相關規定、最佳做法和限制
圖片:規定
在本節中,您將瞭解圖片支援的 MIME 類型,以及每項圖片要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列圖片 MIME 類型:
圖片 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
每項要求的限制
圖片的像素數量沒有特定限制。不過,較大的圖片會縮小並填滿,以便符合 3072 x 3072 的最大解析度,同時保留原始顯示比例。
以下是提示要求中允許的圖片檔案數量上限:
- Gemini 1.0 Pro Vision:16 張圖片
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:3,000 張圖片
圖片:權杖化
以下是圖片的符記計算方式:
- Gemini 1.0 Pro Vision:每張圖片占用 258 個符記。
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:
- 如果圖片的長邊和短邊都小於或等於 384 像素,則會使用 258 個符記。
- 如果圖片的一個尺寸大於 384 像素,系統會將圖片裁剪成圖塊。每個圖塊大小的預設值為最小尺寸 (寬度或高度) 除以 1.5。如有需要,系統會調整每個圖塊,使其大小不小於 256 像素,也不大於 768 像素。然後,每個資訊方塊的大小都會調整為 768x768,並使用 258 個符記。
圖片:最佳做法
使用圖片時,請遵循下列最佳做法和資訊,以獲得最佳結果:
- 如果您想在圖片中偵測文字,請使用單張圖片的提示,這樣比使用多張圖片的提示更能獲得更好的結果。
- 如果提示包含單一圖片,請在要求中將圖片放在文字提示之前。
- 如果提示包含多張圖片,且您想在稍後的提示中參照這些圖片,或讓模型在模型回應中參照這些圖片,建議您在圖片前為每張圖片指定索引。請為索引使用
或a
b
c
。以下是使用索引圖片的提示範例:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 使用解析度較高的圖片,可獲得更好的結果。
- 在提示中加入幾個範例。
- 請先將圖片旋轉至正確方向,再將圖片新增至提示中。
- 請避免使用模糊的圖片。
圖片:限制
雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:
- 內容審核:模特兒拒絕針對違反安全政策的圖片提供答案。
- 空間推理:模型無法精確定位圖片中的文字或物件。可能只會傳回物件的近似計數。
- 醫療用途:模型不適合用於解讀醫學圖像 (例如 X 光和 CT 掃描),也不適合用於提供醫療建議。
- 人物辨識:模型並非用於辨識圖片中非名人的人物。
- 準確度:模型在解讀低品質、旋轉或極低解析度的圖片時,可能會產生幻覺或出錯。模型在解讀圖像文件中的手寫文字時,也可能會產生錯誤。
影片:規定、最佳做法和限制
影片:規定
本節將說明支援的 MIME 類型,以及影片的每項要求限制。
支援的 MIME 類型
Gemini 多模態模型支援下列影片 MIME 類型:
影片 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
每項要求的限制
以下是提示要求中允許的影片檔案數量上限:
- Gemini 1.0 Pro Vision:1 個影片檔案
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:10 個影片檔案
影片:權杖化
以下是影片的符記計算方式:
- 所有 Gemini 多模態模型:影片的取樣率為
每秒 1 格 (fps) 。每個影片影格會佔用 258 個符記。 - Gemini 1.5 Flash 和 Gemini 1.5 Pro:音訊軌會使用影片影格編碼。音訊曲目也會細分為
1 秒的幹線 ,每個幹線代表 32 個符記。影片影格和音訊符記會與其時間戳記交錯排列。時間戳記以 7 個符記表示。
影片:最佳做法
使用影片時,請參考下列最佳做法和資訊,以獲得最佳成效:
- 如果提示包含單一影片,請將影片放在文字提示之前。
- 如果需要在含有音訊的影片中進行時間戳記本地化,請要求模型以
MM:SS
格式產生時間戳記,其中前兩位數字代表分鐘,後兩位數字代表秒數。針對詢問時間戳記的問題,請使用相同的格式。 如果您使用 Gemini 1.0 Pro Vision,請注意下列事項:
- 每個提示最多使用一支影片。
- 模型只會處理影片前兩分鐘的資訊。
- 模型會將影片處理為影片中不連續的圖片影格。不含音訊。如果您發現模型遺漏了影片中的部分內容,請嘗試縮短影片長度,讓模型擷取更多影片內容。
- 模型不會處理任何音訊資訊或時間戳記中繼資料。因此,在需要音訊輸入的用途 (例如音訊字幕) 或時間相關資訊 (例如速度或節奏) 的情況下,模型的效能可能不佳。
影片:限制
雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:
- 內容審核:模特兒拒絕針對違反安全政策的影片提供答案。
- 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
- 高速動作:由於固定的
每秒 1 格 (fps) 取樣率,模型可能會在解讀影片中的高速動作時出錯。 - 轉錄標點符號:(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。
音訊:規定和限制
音訊:必要條件
在本節中,瞭解音訊支援的 MIME 類型和每項要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列音訊 MIME 類型:
音訊 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
每項要求的限制
您最多可以在提示要求中加入
音訊:限制
雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:
- 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
- 純音訊時間戳記:如要準確產生純音訊檔案的時間戳記,您必須在
generation_config
中設定audio_timestamp
參數。 - 轉錄標點符號:(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。
文件 (例如 PDF 檔案):相關規定、最佳做法和限制
文件:規定
本節將說明系統支援的 MIME 類型,以及每項文件 (例如 PDF) 的請求限制。
支援的 MIME 類型
Gemini 多模態模型支援下列文件 MIME 類型:
文件 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
文字 - text/plain |
每項要求的限制
PDF 會視為圖片,因此 PDF 的單一頁面會視為一張圖片。提示中允許的頁面數量,取決於模型可支援的圖片數量:
- Gemini 1.0 Pro Vision:16 頁
- Gemini 1.5 Pro 和 Gemini 1.5 Flash:1,000 頁
文件:權杖化
PDF 代碼化
PDF 會視為圖片,因此 PDF 的每個頁面都會以與圖片相同的方式進行符記。
此外,PDF 的費用會依據 Gemini 圖片定價而定。舉例來說,如果您在 Gemini API 呼叫中加入兩頁 PDF,就會產生處理兩張圖片的輸入費用。
純文字代碼化
純文字文件會以文字符號化。舉例來說,如果您在 Gemini API 呼叫中加入 100 字的純文字文件,系統就會收取 100 個字的輸入費用。
文件:最佳做法
使用 PDF 時,請參考下列最佳做法和資訊,以獲得最佳結果:
- 如果提示包含單一 PDF 檔案,請在要求中將 PDF 檔案放在文字提示之前。
- 如果您有長篇文件,建議將其拆成多個 PDF 檔案來處理。
- 使用以文字呈現的文字建立的 PDF,而非使用掃描圖片中的文字。這個格式可確保文字可供機器讀取,讓模型更容易編輯、搜尋及操作,相較於掃描的圖像 PDF 檔案。處理大量文字的文件 (例如合約) 時,這項做法可提供最佳結果。
文件:限制
雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:
- 空間推理:模型無法精確找出 PDF 中的文字或物件。可能只會傳回物件的近似計數。
- 準確度:模型在解讀 PDF 文件中的手寫文字時,可能會產生錯誤。