Saat memanggil Vertex AI Gemini API dari aplikasi Anda menggunakan SDK Vertex AI in Firebase, Anda dapat memerintahkan model Gemini untuk membuat teks berdasarkan input multimodal. Perintah multimodal dapat mencakup beberapa modalitas (atau jenis input), seperti teks beserta gambar, PDF, video, dan audio.
Untuk bagian input non-teks (seperti file media), Anda harus menggunakan jenis file yang didukung, menentukan jenis MIME yang didukung, dan memastikan bahwa file dan permintaan multimodal Anda memenuhi persyaratan dan mengikuti praktik terbaik.
Halaman ini menjelaskan jenis MIME, praktik terbaik, dan batasan yang didukung untuk hal berikut:
Persyaratan khusus untuk Vertex AI in Firebase SDK
Untuk Vertex AI in Firebase SDK, ukuran total permintaan maksimum adalah 20 MB. Anda akan mendapatkan error HTTP 413 jika permintaan terlalu besar.
Jika ukuran file akan membuat total ukuran permintaan melebihi 20 MB, gunakan URL Cloud Storage for Firebase untuk menyertakan file dalam permintaan multimodal.
Jika file berukuran kecil, Anda sering dapat meneruskannya langsung sebagai data inline. Namun, perlu diperhatikan bahwa file yang diberikan sebagai data inline dienkode ke base64 dalam transit, yang akan meningkatkan ukuran permintaan. Untuk contoh yang menunjukkan cara menyertakan file sebagai data inline, lihat Membuat teks dari perintah multimodal menggunakan Gemini API.
Gambar: Persyaratan, praktik terbaik, dan batasan
Gambar: Persyaratan
Di bagian ini, pelajari jenis MIME dan batas per permintaan untuk gambar yang didukung.
Jenis MIME yang didukung
Model multimodal Gemini mendukung jenis MIME gambar berikut:
Jenis MIME gambar | Flash Gemini 1.5 | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
Batas per permintaan
Tidak ada batasan spesifik untuk jumlah piksel dalam gambar. Namun, gambar yang lebih besar akan diskalakan ke bawah dan ditambahkan padding agar sesuai dengan resolusi maksimum 3072 x 3072 sekaligus mempertahankan rasio aspek aslinya.
Berikut adalah jumlah maksimum file gambar yang diizinkan dalam permintaan perintah:
- Gemini 1.0 Pro Vision: 16 gambar
- Gemini 1.5 Flash dan Gemini 1.5 Pro: 3.000 gambar
Gambar: Tokenisasi
Berikut cara token dihitung untuk gambar:
- Gemini 1.0 Pro Vision: Setiap gambar menghasilkan 258 token.
- Gemini 1.5 Flash dan
Gemini 1.5 Pro:
- Jika kedua dimensi gambar kurang dari atau sama dengan 384 piksel, 258 token akan digunakan.
- Jika satu dimensi gambar lebih besar dari 384 piksel, gambar akan dipangkas menjadi ubin. Setiap ukuran kartu ditetapkan secara default ke dimensi terkecil (lebar atau tinggi) dibagi dengan 1,5. Jika perlu, setiap ubin akan disesuaikan agar tidak lebih kecil dari 256 piksel dan tidak lebih besar dari 768 piksel. Setiap kartu kemudian diubah ukurannya menjadi 768x768 dan menggunakan 258 token.
Gambar: Praktik terbaik
Saat menggunakan gambar, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:
- Jika Anda ingin mendeteksi teks dalam gambar, gunakan perintah dengan satu gambar untuk menghasilkan hasil yang lebih baik daripada perintah dengan beberapa gambar.
- Jika perintah Anda berisi satu gambar, tempatkan gambar sebelum perintah teks dalam permintaan Anda.
- Jika perintah Anda berisi beberapa gambar, dan Anda ingin merujuknya
nanti dalam perintah atau meminta model untuk merujuknya dalam respons model,
sebaiknya beri setiap gambar indeks sebelum gambar. Gunakan
ataua
b
c
untuk indeks Anda. Berikut adalah contoh penggunaan gambar yang diindeks dalam perintah:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Gunakan gambar dengan resolusi lebih tinggi karena akan menghasilkan hasil yang lebih baik.
- Sertakan beberapa contoh dalam perintah.
- Putar gambar ke orientasi yang tepat sebelum menambahkannya ke perintah.
- Hindari gambar yang buram.
Gambar: Batasan
Meskipun model multimodal Gemini sangat canggih dalam banyak kasus penggunaan multimodal, penting untuk memahami keterbatasan model:
- Moderasi konten: Model menolak memberikan jawaban terkait gambar yang melanggar kebijakan keamanan kami.
- Penalaran spasial: Model ini tidak tepat dalam menemukan teks atau objek dalam gambar. Fungsi ini mungkin hanya menampilkan perkiraan jumlah objek.
- Penggunaan medis: Model ini tidak sesuai untuk menafsirkan gambar medis (misalnya, sinar-X dan CT scan) atau memberikan saran medis.
- Pengenalan orang: Model ini tidak dimaksudkan untuk digunakan untuk mengidentifikasi orang yang bukan selebritas dalam gambar.
- Akurasi: Model mungkin mengalami halusinasi atau melakukan kesalahan saat menafsirkan gambar berkualitas rendah, diputar, atau beresolusi sangat rendah. Model ini juga mungkin berhalusinasi saat menafsirkan teks tulisan tangan dalam dokumen gambar.
Video: Persyaratan, praktik terbaik, dan batasan
Video: Persyaratan
Di bagian ini, pelajari jenis dan batas MIME yang didukung per permintaan untuk video.
Jenis MIME yang didukung
Model multimodal Gemini mendukung jenis MIME video berikut:
Jenis MIME video | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
Batas per permintaan
Berikut adalah jumlah maksimum file video yang diizinkan dalam permintaan perintah:
- Gemini 1.0 Pro Vision: 1 file video
- Gemini 1.5 Flash dan Gemini 1.5 Pro: 10 file video
Video: Tokenisasi
Berikut cara penghitungan token untuk video:
- Semua model multimodal Gemini: Video diambil sampelnya pada
1 frame per detik (fps) . Setiap frame video memiliki 258 token. - Gemini 1.5 Flash dan
Gemini 1.5 Pro: Trek audio dienkode
dengan frame video. Trek audio juga dibagi menjadi
trunk 1 detik yang masing-masing menghasilkan 32 token. Token frame video dan audio diselingi bersama dengan stempel waktunya. Stempel waktu direpresentasikan sebagai 7 token.
Video: Praktik terbaik
Saat menggunakan video, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:
- Jika perintah Anda berisi satu video, tempatkan video sebelum perintah teks.
- Jika Anda memerlukan pelokalan stempel waktu dalam video dengan audio, minta model
untuk membuat stempel waktu dalam format
MM:SS
dengan dua digit pertama mewakili menit dan dua digit terakhir mewakili detik. Gunakan format yang sama untuk pertanyaan yang menanyakan stempel waktu. Perhatikan hal-hal berikut jika Anda menggunakan Gemini 1.0 Pro Vision:
- Jangan gunakan lebih dari satu video per perintah.
- Model ini hanya memproses informasi dalam dua menit pertama video.
- Model memproses video sebagai frame gambar yang tidak berurutan dari video. Audio tidak disertakan. Jika Anda melihat model melewatkan beberapa konten dari video, coba buat video lebih pendek sehingga model dapat merekam sebagian besar konten video.
- Model tidak memproses informasi audio atau metadata stempel waktu. Oleh karena itu, model mungkin tidak berperforma baik dalam kasus penggunaan yang memerlukan input audio, seperti audio teks, atau informasi terkait waktu, seperti kecepatan atau ritme.
Video: Batasan
Meskipun model multimodal Gemini sangat canggih dalam banyak kasus penggunaan multimodal, penting untuk memahami keterbatasan model:
- Moderasi konten: Model menolak memberikan jawaban pada video yang melanggar kebijakan keselamatan kami.
- Pengenalan suara non-ucapan: Model yang mendukung audio mungkin melakukan kesalahan saat mengenali suara yang bukan ucapan.
- Gerakan berkecepatan tinggi: Model mungkin melakukan kesalahan
dalam memahami gerakan berkecepatan tinggi dalam video karena kecepatan sampling
1 frame per detik (fps) yang tetap. - Tanda baca transkripsi: (jika menggunakan Gemini 1.5 Flash) Model mungkin menampilkan transkripsi yang tidak menyertakan tanda baca.
Audio: Persyaratan dan batasan
Audio: Persyaratan
Di bagian ini, pelajari jenis MIME dan batas per permintaan untuk audio yang didukung.
Jenis MIME yang didukung
Model multimodal Gemini mendukung jenis MIME audio berikut:
Jenis MIME audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Batas per permintaan
Anda dapat menyertakan maksimal
Audio: Batasan
Meskipun model multimodal Gemini sangat andal dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model tersebut:
- Pengenalan suara non-ucapan: Model yang mendukung audio mungkin melakukan kesalahan saat mengenali suara yang bukan ucapan.
- Stempel waktu khusus audio: Untuk membuat stempel waktu secara akurat untuk file khusus audio, Anda harus mengonfigurasi parameter
audio_timestamp
digeneration_config
. - Tanda baca transkripsi: (jika menggunakan Gemini 1.5 Flash) Model mungkin menampilkan transkripsi yang tidak menyertakan tanda baca.
Dokumen (seperti PDF): Persyaratan, praktik terbaik, dan batasan
Dokumen: Persyaratan
Di bagian ini, pelajari jenis MIME dan batas per permintaan untuk dokumen (seperti PDF) yang didukung.
Jenis MIME yang didukung
Model multimodal Gemini mendukung jenis MIME dokumen berikut:
Jenis MIME dokumen | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
Teks - text/plain |
Batas per permintaan
PDF diperlakukan sebagai gambar, sehingga satu halaman PDF diperlakukan sebagai satu gambar. Jumlah halaman yang diizinkan dalam perintah dibatasi pada jumlah gambar yang dapat didukung model:
- Gemini 1.0 Pro Vision: 16 halaman
- Gemini 1.5 Pro dan Gemini 1.5 Flash: 1.000 halaman
Dokumen: Tokenisasi
Tokenisasi PDF
PDF diperlakukan sebagai gambar, sehingga setiap halaman PDF diberi token dengan cara yang sama seperti gambar.
Selain itu, biaya untuk PDF mengikuti harga image Gemini. Misalnya, jika Anda menyertakan PDF dua halaman dalam panggilan Gemini API, Anda akan dikenai biaya input untuk memproses dua gambar.
Tokenisasi teks biasa
Dokumen teks biasa ditokenisasi sebagai teks. Misalnya, jika Anda menyertakan dokumen teks biasa 100 kata dalam panggilan Gemini API, Anda dikenai biaya input untuk memproses 100 kata.
Dokumen: Praktik terbaik
Saat menggunakan PDF, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:
- Jika perintah Anda berisi satu PDF, tempatkan PDF sebelum perintah teks dalam permintaan Anda.
- Jika Anda memiliki dokumen yang panjang, sebaiknya bagi dokumen tersebut menjadi beberapa PDF untuk memprosesnya.
- Gunakan PDF yang dibuat dengan teks yang dirender sebagai teks, bukan menggunakan teks dalam gambar yang dipindai. Format ini memastikan teks dapat dibaca mesin sehingga lebih mudah bagi model untuk mengedit, menelusuri, dan memanipulasi dibandingkan dengan PDF gambar yang dipindai. Praktik ini memberikan hasil yang optimal saat menangani dokumen yang banyak teks seperti kontrak.
Dokumen: Batasan
Meskipun model multimodal Gemini sangat canggih dalam banyak kasus penggunaan multimodal, penting untuk memahami keterbatasan model:
- Pemikiran spasial: Model tidak akurat dalam menemukan teks atau objek dalam PDF. Fungsi ini mungkin hanya menampilkan perkiraan jumlah objek.
- Akurasi: Model mungkin mengalami halusinasi saat menafsirkan teks tulisan tangan dalam dokumen PDF.