Vertex AI in Firebase SDK'sını kullanarak uygulamanızdan Vertex AI Gemini API'ü çağırırken Gemini modelinden çok modlu girişe göre metin oluşturmasını isteyebilirsiniz. Çok modlu istemler, resimler, PDF'ler, video ve ses gibi birden fazla modu (veya giriş türünü) içerebilir.
Girişteki metin olmayan bölümler (ör. medya dosyaları) için desteklenen dosya türlerini kullanmanız, desteklenen bir MIME türü belirtmeniz ve dosyalarınızın ve çok modlu isteklerinizin koşulları karşıladığından ve en iyi uygulamalara uyduğundan emin olmanız gerekir.
Bu sayfada, desteklenen MIME türleri, en iyi uygulamalar ve sınırlamalar açıklanmaktadır. şunun için:
Vertex AI in Firebase SDK'larına özel şartlar
Vertex AI in Firebase SDK için maksimum toplam istek boyutu: 20 MB. İstek çok büyükse HTTP 413 hatası alırsınız.
Bir dosyanın boyutu, toplam istek boyutunun 20 MB'ı aşmasına neden olacaksa bu durumda dosyayı çok modlu isteğinize dahil etmek için bir Cloud Storage for Firebase URL'si kullanın.
Küçük dosyaları genellikle doğrudan satır içi veri olarak iletebilirsiniz. Satır içi veri olarak sağlanan bir dosyanın aktarma sırasında base64 olarak kodlandığını ve bu durumun isteğin boyutunu artırdığını unutmayın. Dosyaların satır içi veri olarak nasıl ekleneceğini gösteren örnekler için Gemini API'yi kullanarak çoklu modal istemlerden metin oluşturma başlıklı makaleyi inceleyin.
Görseller: Koşullar, en iyi uygulamalar ve sınırlamalar
Resimler: Şartlar
Bu bölümde, resimler için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edineceksiniz.
Desteklenen MIME türleri
Gemini çok formatlı modelleri aşağıdaki resim MIME türlerini destekler:
Resim MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
İstek başına sınırlar
Bir resimdeki piksel sayısı için belirli bir sınır yoktur. Ancak, daha büyük resimler küçültülür ve maksimum 3072x çözünürlüğe sığacak şekilde doldurulur 3072'ye erişirken orijinal en boy oranlarını korur.
Bir istem isteğinde izin verilen maksimum resim dosyası sayısı aşağıda verilmiştir:
- Gemini 1.0 Pro Vision: 16 resim
- Gemini 1.5 Flash ve Gemini 1.5 Pro: 3.000 resim
Resimler: Belirtme
Resimler için jetonların nasıl hesaplandığı aşağıda açıklanmıştır:
- Gemini 1.0 Pro Vision: Her resim 258 jetona karşılık gelir.
- Gemini 1.5 Flash ve
Gemini 1.5 Pro:
- Bir resmin her iki boyutu da 384 pikselden küçük veya eşitse 258 jeton kullanılır.
- Resmin bir boyutu 384 pikselden büyükse resim karolara kırpıldı. Her karo boyutu varsayılan olarak en küçük boyutun (genişlik veya yükseklik) 1,5'e bölünmesiyle elde edilir. Gerekirse her karo 256 pikselden küçük ve 768 pikselden büyük olmayacak şekilde ayarlanır. Ardından her karo 768x768 olarak yeniden boyutlandırılır ve 258 jeton kullanılır.
Resimler: En iyi uygulamalar
En iyi sonuçlar için resimleri kullanırken aşağıdaki en iyi uygulamaları ve bilgileri göz önünde bulundurun:
- Bir görseldeki metni algılamak istiyorsanız tek bir resim içeren istemleri kullanarak ve birden fazla resim içeren istemlere kıyasla daha iyi sonuçlar verir.
- İsteminiz tek bir resim içeriyorsa resmi isteğinizde metin isteminden önce yerleştirin.
- İsteminiz birden fazla resim içeriyorsa ve bu resimlere isteminizde daha sonra referans vermek istiyorsanız veya modelin model yanıtında bu resimlere referans vermesini istiyorsanız her resme resimden önce bir dizin eklemeniz faydalı olabilir. Tekliflerinizi otomatikleştirmek ve optimize etmek için
veyaa
b
c
oluşturmanız gerekir. Aşağıda, dizine eklenen resimlerin istemde kullanılmasına dair bir örnek verilmiştir:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Daha yüksek çözünürlüklü resimler kullanın; daha iyi sonuçlar verirler.
- İsteme birkaç örnek ekleyin.
- Resimleri tıklayın.
- Bulanık resimler kullanmaktan kaçının.
Resimler: Sınırlamalar
Gemini'ın çok modlu modelleri, pek çok çok modlu kullanımda güçlü olsa da durumlarda, modellerin sınırlamalarını anlamak önemlidir:
- İçerik moderasyonu: Modeller yanıt vermeyi reddediyor güvenlik politikalarımızı ihlal eden resimlere.
- Uzamsal akıl yürütme: Modeller, resimlerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Bunlar yalnızca nesneler'i tıklayın.
- Tıbbi kullanımlar: Modeller, tıbbi görüntüleri (ör. röntgen ve CT taramaları) yorumlamak veya tıbbi tavsiye vermek için uygun değildir.
- Kişi tanıma: Modellerin, resimlerde ünlü olmayan kişileri tanımlamak için kullanılması amaçlanmamıştır.
- Doğruluk: Modeller halüsinasyon sorunu nedeniyle hata yapabilir düşük kaliteli, döndürülmüş veya çok düşük çözünürlüklü resimleri yorumlar. Modeller, resim dokümanlarındaki el yazısı metinleri yorumlarken de halüsinasyon görebilir.
Video: Şartlar, en iyi uygulamalar ve sınırlamalar
Video: Şartlar
Bu bölümde, video için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edineceksiniz.
Desteklenen MIME türleri
Gemini çok modlu modelleri aşağıdaki video MIME türlerini destekler:
Video MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vizyonu |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
İstek başına sınırlar
İstem isteğinde izin verilen maksimum video dosyası sayısı:
- Gemini 1.0 Pro Vision: 1 video dosyası
- Gemini 1.5 Flash ve Gemini 1.5 Pro: 10 video dosyası
Video: Tokenizasyon
Video için jetonlar şu şekilde hesaplanır:
- Tüm çoklu formatlı Gemini modelleri: Videolar
saniyede 1 kare (fps) hızında örneklenir. Her video karesi 258 jeton olarak kabul edilir. - Gemini 1.5 Flash ve
Gemini 1.5 Pro: Ses parçası kodlanmış
video çerçeveleriyle. Ses parçası da daha sonra
Her biri 32 jetona karşılık gelen
1 saniyelik santraller . Video karesi ve ses jetonları, zaman damgalarıyla birlikte iç içe yerleştirilir. Zaman damgaları 7 jeton olarak temsil edilir.
Video: En iyi uygulamalar
Video kullanırken en iyi sonuçlar için aşağıdaki en iyi uygulamaları ve bilgileri kullanın:
- İsteminiz tek bir video içeriyorsa videoyu metin isteminden önce yerleştirin.
- Sesli bir videoda zaman damgası yerelleştirmesi gerekiyorsa modele sorun.
zaman damgaları oluşturmak için
MM:SS
biçiminde rakamlar dakikayı, son iki basamak ise saniyeyi temsil eder. Zaman damgası hakkında sorulan sorular için de aynı biçimi kullanın. Gemini 1.0 Pro Vision kullanıyorsanız aşağıdakilere dikkat edin:
- İstem başına en fazla bir video kullanın.
- Model yalnızca videonun ilk iki dakikasındaki bilgileri işler.
- Model, videoları videodaki birbirine bitişik olmayan resim kareleri olarak işler. Ses dahil değildir. Modelin videoda bazı içerikleri kaçırdığını fark ederseniz modelin video içeriğinin daha büyük bir bölümünü yakalaması için videoyu kısaltmayı deneyin.
- Model, ses bilgilerini veya zaman damgası meta verilerini işlemez. Bu nedenle model, altyazı sesleri gibi ses girişi gerektiren veya hız ya da ritim gibi zamanla ilgili bilgiler içeren kullanım alanlarında iyi performans göstermeyebilir.
Video: Sınırlamalar
Gemini çok modlu modelleri birçok çok modlu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- İçerik moderasyon: Modeller, güvenlik politikalarımızı ihlal eden videolarda yanıt vermeyi reddediyor.
- Konuşma dışı ses tanıma: Destekleyen modeller ses, konuşma dışındaki sesi tanırken hata yapabilir.
- Yüksek hızlı hareket: Sabit
saniyede 1 kare (fps) örnekleme hızı nedeniyle modeller, videodaki yüksek hızlı hareketi anlamaya çalışırken hata yapabilir. - Transkript noktalama işaretleri: (Gemini 1.5 Flash kullanılıyorsa) Modeller, noktalama işareti içermeyen transkriptler döndürebilir.
Ses: Şartlar ve sınırlamalar
Ses: Koşullar
Bu bölümde, ses için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edineceksiniz.
Desteklenen MIME türleri
Gemini çok formatlı modelleri aşağıdaki ses MIME türlerini destekler:
Ses MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
İstek başına sınırlar
Bir istem isteğine en fazla
Ses: Sınırlamalar
Gemini çok modlu modelleri birçok çok modlu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- Konuşma dışı ses tanıma: Destekleyen modeller ses, konuşma dışındaki sesi tanırken hata yapabilir.
- Yalnızca ses zaman damgaları: Doğru bir
zaman damgalarını ayarlamak istiyorsanız
audio_timestamp
parametresini yapılandırmanız gerekirgeneration_config
içinde. - Metne dönüştürme noktalama: (Gemini 1.5 Flash kullanılıyorsa) Modeller noktalama işareti içermeyen transkriptleri döndürür.
Dokümanlar (PDF gibi): Koşullar, en iyi uygulamalar ve sınırlamalar
Belgeler: Gereksinimler
Bu bölümde, dokümanlar (ör. PDF'ler) için istek başına desteklenen MIME türleri ve sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini çok formatlı modelleri aşağıdaki doküman MIME türlerini destekler:
Doküman MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
Metin: text/plain |
İstek başına sınırlar
PDF'ler resim olarak işlendiğinden, PDF'nin tek bir sayfası tek bir sayfa olarak işlenir. görüntüsüdür. Bir istemde izin verilen sayfa sayısı, modelin destekleyebileceği resimler:
- Gemini 1.0 Pro Vision: 16 sayfa
- Gemini 1.5 Pro ve Gemini 1.5 Flash: 1.000 sayfa
Belgeler: Belirtme
PDF jeton oluşturma
PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin her sayfası resimle aynı şekilde jetonlara ayrılır.
Ayrıca, PDF'lerin maliyeti şu şekildedir: Gemini resim fiyatlandırması. Örneğin, Gemini API çağrısına iki sayfalık bir PDF eklerseniz iki resmin işlenmesi için giriş ücreti alınır.
Düz metin dilimleme
Düz metin dokümanları, metin olarak tokenleştirilir. Örneğin, 100 kelimelik bir düz metin eklerseniz çağrısında bulunuyorsa 100 kelimelik işlem için giriş ücreti ödersiniz.
Belgeler: En iyi uygulamalar
PDF kullanırken en iyi sonuçlar:
- İsteminiz tek bir PDF içeriyorsa PDF'yi isteğinizde metin isteminden önce yerleştirin.
- Uzun bir dokümanınız varsa işleme almak için dokümanı birden fazla PDF'ye bölebilirsiniz.
- Taranmış resimlerdeki metin yerine, metin olarak oluşturulan PDF'leri kullanın. Bu biçim, metnin makine tarafından okunabilir olmasını sağlar. Böylece, modelin tarayıcıdan alınan resim PDF'lerine kıyasla metni düzenlemesi, araması ve değiştirmesi daha kolay olur. Bu uygulama, yüksek performanslı cihazlarla çalışırken çok fazla metin içeren dokümanlardır.
Dokümanlar: Sınırlamalar
Gemini çok modlu modelleri birçok çok modlu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- Uzamsal akıl yürütme: Modellerin yerini belirleme konusunda hassas değil PDF'lerdeki metin veya nesneler. Bunlar yalnızca nesneler'i tıklayın.
- Doğruluk: Modeller yorum yaparken halüsinasyon sorunu yaşayabilir PDF dokümanlarında el yazısı metinler.