Vertex AI in Firebase SDK'sını kullanarak uygulamanızdan Vertex AI Gemini API'ü çağırırken Gemini modelinden çok modlu girişe göre metin oluşturmasını isteyebilirsiniz. Çok modlu istemler, resimler, PDF'ler, video ve ses gibi birden fazla mod (veya giriş türü) içerebilir.
Girişteki metin olmayan bölümler (ör. medya dosyaları) için desteklenen dosya türlerini kullanmanız, desteklenen bir MIME türü belirtmeniz ve dosyalarınızın ve çok modlu isteklerinizin koşulları karşıladığından ve en iyi uygulamalara uyduğundan emin olmanız gerekir.
Bu sayfada aşağıdakiler açıklanmaktadır:
Aşağıdaki dosya girişleri için desteklenen MIME türleri, en iyi uygulamalar ve sınırlamalar hakkında ayrıntılı bilgi:
Resimler | Video | Ses | Belgeler (PDF'ler gibi).
Çok formatlı isteklerde dosya sağlama seçenekleri
Her çok modlu isteğinde her zaman aşağıdakileri sağlamanız gerekir:
Dosyanın adı
mimeType
. Her giriş dosyasının desteklenen MIME türlerini bu sayfanın ilgili bölümünde bulabilirsiniz.Dosya. Dosyayı URL'sini / URI'sini kullanarak sağlayabilir veya satır içi veri olarak sağlayabilirsiniz.
İstekte sağlayabileceğiniz dosyaların boyutu ve sayısı, giriş dosyası türüne, dosyayı nasıl sağladığınıza ve kullanılan modele bağlıdır (ayrıntılar için bu sayfadaki her giriş dosyası türünün bölümüne bakın).
1. seçenek: Dosyayı URL veya URI kullanarak sağlama
Kabul edilen URL veya URI türleri şunlardır:
Cloud Storage for Firebase paket URL'si: Dosyanın URL'si herkese açık olmalıdır veya oturum açmış kullanıcı ya da istemcinin dosyaya yeterli erişimi olmalıdır. Cloud Storage for Firebase Avantajları, URL koşulları ve kod örnekleri hakkında daha fazla bilgi edinin.
Google Cloud Storage paket URL'si: Dosyanın URL'si herkese açık olmalıdır. Ayrıca, paket Vertex AI in Firebase ile kullandığınız projeden farklı bir projedeyse URL için
https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE
biçimini kullanın.Tarayıcı/HTTP URL'leri: Dosya URL'si herkes tarafından okunabilir olmalıdır. Medya barındıran sitelerin URL'leri, medyayı doğrudan gösteren URL'ler (medyayı barındıran bir web sayfası değil) veya yayınlanan bir Google Drive ya da Google Workspace dosyası buna örnek gösterilebilir.
YouTube videosu URL'si: YouTube videosu herkese açık veya liste dışı olmalıdır.
Google Cloud dokümanlarında URL'ler ve URI'ler için şartlar hakkında daha fazla bilgi edinin.
2. seçenek: Dosyayı satır içi veri olarak sağlayın
Satır içi veri olarak sağlanan dosyalarla ilgili olarak aşağıdakilere dikkat edin:
Toplam istek boyutu sınırı 20 MB olduğundan yalnızca küçük dosyalar satır içi veri olarak gönderilebilir.
Dosya, aktarım sırasında base64 olarak kodlanır (bu da dosya boyutunu artırır).
Dosyaların satır içi veri olarak nasıl ekleneceğini gösteren örnekler için Gemini API'yi kullanarak çok formatlı istemlerden metin oluşturma başlıklı makaleyi inceleyin.
Resimler: Şartlar, en iyi uygulamalar ve sınırlamalar
Resimler: Şartlar
Bu bölümde, resimler için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini çok formatlı modeller aşağıdaki resim MIME türlerini destekler:
Resim MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
İstek başına sınırlar
Bir resimdeki piksel sayısı için belirli bir sınır yoktur. Ancak daha büyük resimler, orijinal en boy oranları korunarak 3072 x 3072'ye kadar maksimum çözünürlüğe sığacak şekilde küçültülür ve doldurulur.
İstem isteğinde izin verilen maksimum resim dosyası sayısı:
- Gemini 1.0 Pro Vision: 16 resim
- Gemini 1.5 Flash ve Gemini 1.5 Pro: 3.000 resim
Resimler: Belirtme
Resimler için jetonlar şu şekilde hesaplanır:
- Gemini 1.0 Pro Vision: Her resim 258 jetonu temsil eder.
- Gemini 1.5 Flash ve
Gemini 1.5 Pro:
- Bir resmin her iki boyutu da 384 pikselden küçük veya eşitse 258 jeton kullanılır.
- Bir resmin boyutlarından biri 384 pikselden büyükse resim, karolara bölünerek kırpılır. Her karo boyutu varsayılan olarak en küçük boyutun (genişlik veya yükseklik) 1,5'e bölünmesiyle elde edilir. Gerekirse her karo 256 pikselden küçük ve 768 pikselden büyük olmayacak şekilde ayarlanır. Ardından her karo 768x768 olarak yeniden boyutlandırılır ve 258 jeton kullanılır.
Resimler: En iyi uygulamalar
En iyi sonuçlar için resim kullanırken aşağıdaki en iyi uygulamaları ve bilgileri kullanın:
- Bir resimdeki metni algılamak istiyorsanız birden fazla resim içeren istemlere kıyasla daha iyi sonuçlar elde etmek için tek resim içeren istemler kullanın.
- İsteminiz tek bir resim içeriyorsa resmi isteğinizde metin isteminden önce yerleştirin.
- İsteminiz birden fazla resim içeriyorsa ve bu resimlere isteminizde daha sonra referans vermek istiyorsanız veya modelin model yanıtında bu resimlere referans vermesini istiyorsanız her resme resimden önce bir dizin eklemeniz faydalı olabilir. Dizininiz için
veyaa
b
c
kullanın. Aşağıda, dizine eklenen resimlerin istemde kullanılmasına dair bir örnek verilmiştir:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Daha yüksek çözünürlüklü resimler kullanın. Bu resimler daha iyi sonuçlar verir.
- İsteminize birkaç örnek ekleyin.
- Resimleri istem kutusuna eklemeden önce doğru yönde döndürün.
- Bulanık resimler kullanmayın.
Resimler: Sınırlamalar
Gemini çoklu modeller birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- İçerik moderasyon: Modeller, güvenlik politikalarımızı ihlal eden resimlerle ilgili yanıt vermeyi reddeder.
- Uzamsal akıl yürütme: Modeller, resimlerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Yalnızca öğelerin yaklaşık sayılarını döndürebilirler.
- Tıbbi kullanımlar: Modeller, tıbbi görüntüleri (ör. röntgen ve CT taramaları) yorumlamak veya tıbbi tavsiye vermek için uygun değildir.
- Kişi tanıma: Modellerin, resimlerde ünlü olmayan kişileri tanımlamak için kullanılması amaçlanmamıştır.
- Doğruluk: Modeller, düşük kaliteli, döndürülmüş veya son derece düşük çözünürlüklü resimleri yorumlarken halüsinasyon görebilir veya hata yapabilir. Modeller, resim dokümanlarındaki el yazısı metinleri yorumlarken de halüsinasyon görebilir.
Video: Şartlar, en iyi uygulamalar ve sınırlamalar
Video: Şartlar
Bu bölümde, video isteklerinde desteklenen MIME türleri ve sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini Çok formatlı modeller aşağıdaki video MIME türlerini destekler:
Video MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
İstek başına sınırlar
İstem isteğinde izin verilen maksimum video dosyası sayısı:
- Gemini 1.0 Pro Vision: 1 video dosyası
- Gemini 1.5 Flash ve Gemini 1.5 Pro: 10 video dosyası
Video: Belirtme
Video için jetonlar şu şekilde hesaplanır:
- Tüm çoklu formatlı Gemini modelleri: Videolar
saniyede 1 kare (fps) hızında örneklenir. Her video karesi 258 jeton olarak kabul edilir. - Gemini 1.5 Flash ve
Gemini 1.5 Pro: Ses kanalı, video kareleriyle kodlanır. Ses parçası da her biri 32 jetondan oluşan
1 saniyelik kanallara ayrılır. Video karesi ve ses jetonları, zaman damgalarıyla birlikte iç içe yerleştirilir. Zaman damgaları 7 jeton olarak temsil edilir.
Video: En iyi uygulamalar
Video kullanırken en iyi sonuçlar için aşağıdaki en iyi uygulamaları ve bilgileri kullanın:
- İsteminiz tek bir video içeriyorsa videoyu metin isteminden önce yerleştirin.
- Sesli bir videoda zaman damgası yerelleştirmesi gerekiyorsa modelden, ilk iki basamağın dakikaları, son iki basamağın ise saniyeleri temsil ettiği
MM:SS
biçiminde zaman damgaları oluşturmasını isteyin. Zaman damgasıyla ilgili sorular için de aynı biçimi kullanın. Gemini 1.0 Pro Vision kullanıyorsanız aşağıdakileri göz önünde bulundurun:
- İstem başına en fazla bir video kullanın.
- Model yalnızca videonun ilk iki dakikasındaki bilgileri işler.
- Model, videoları videodaki birbirine bitişik olmayan resim kareleri olarak işler. Ses eklenmez. Modelin videonun bazı bölümünü kaçırdığını fark ederseniz modelin video içeriğinin daha büyük bir bölümünü yakalaması için videoyu kısaltmayı deneyin.
- Model, ses bilgilerini veya zaman damgası meta verilerini işlemez. Bu nedenle model, altyazı sesleri gibi ses girişi gerektiren veya hız ya da ritim gibi zamanla ilgili bilgiler içeren kullanım alanlarında iyi performans göstermeyebilir.
Video: Sınırlamalar
Gemini çoklu modeller birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- İçerik moderasyon: Modeller, güvenlik politikalarımızı ihlal eden videolarda yanıt vermeyi reddediyor.
- Konuşma dışı ses algılama: Sesleri destekleyen modeller, konuşma dışı sesleri algılarken hata yapabilir.
- Yüksek hızlı hareket: Modeller, sabit
saniyede 1 kare (fps) örnekleme hızı nedeniyle videodaki yüksek hızlı hareketi anlamaya çalışırken hata yapabilir. - Transkript noktalama işaretleri: (Gemini 1.5 Flash kullanılıyorsa) Modeller, noktalama işareti içermeyen transkriptler döndürebilir.
Ses: Şartlar ve sınırlamalar
Ses: Şartlar
Bu bölümde, ses için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini Çok formatlı modeller aşağıdaki ses MIME türlerini destekler:
Ses MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
İstek başına sınırlar
İstem isteğine en fazla
Ses: Sınırlamalar
Gemini çoklu modeller birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- Konuşma dışı ses algılama: Sesleri destekleyen modeller, konuşma dışı sesleri algılarken hata yapabilir.
- Yalnızca ses için zaman damgaları: Yalnızca ses dosyaları için doğru zaman damgaları oluşturmak istiyorsanız
generation_config
içindeaudio_timestamp
parametresini yapılandırmanız gerekir. - Transkript noktalama işaretleri: (Gemini 1.5 Flash kullanılıyorsa) Modeller, noktalama işareti içermeyen transkriptler döndürebilir.
Dokümanlar (PDF'ler gibi): Şartlar, en iyi uygulamalar ve sınırlamalar
Belgeler: Şartlar
Bu bölümde, dokümanlar (ör. PDF'ler) için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini Çok modlu modeller aşağıdaki doküman MIME türlerini destekler:
Belge MIME türü | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
Metin: text/plain |
İstek başına sınırlar
PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin tek bir sayfası tek bir resim olarak değerlendirilir. Bir istemde izin verilen sayfa sayısı, modelin destekleyebileceği resim sayısıyla sınırlıdır:
- Gemini 1.0 Pro Vision:
- İstek başına maksimum dosya sayısı: 16
- Dosya başına maksimum sayfa sayısı: 16
- Dosya başına maksimum boyut: 50 MB
- Gemini 1.5 Pro ve
Gemini 1.5 Flash:
- İstek başına maksimum dosya sayısı: 3.000
- Dosya başına maksimum sayfa sayısı: 1.000
- Dosya başına maksimum boyut: 50 MB
- 3.000 tek sayfalık PDF dosyası
- on adet 300 sayfalık PDF dosyası
- 1.000 sayfalık üç PDF dosyası
Belgeler: Belirtme
PDF jeton oluşturma
PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin her sayfası resimle aynı şekilde jetonlara ayrılır.
Ayrıca PDF'lerin maliyeti Gemini resim fiyatlandırmasına tabidir. Örneğin, bir Gemini API çağrısına iki sayfalık bir PDF eklerseniz iki resmin işlenmesi için giriş ücreti ödersiniz.
Düz metin dilimleme
Düz metin dokümanları metin olarak jetonlara ayrılır. Örneğin, bir Gemini API çağrısına 100 kelimelik bir düz metin belgesi eklerseniz 100 kelimenin işlenmesi için giriş ücreti ödersiniz.
Dokümanlar: En iyi uygulamalar
PDF'leri kullanırken en iyi sonuçlar için aşağıdaki en iyi uygulamaları ve bilgileri kullanın:
- İsteminiz tek bir PDF içeriyorsa PDF'yi isteğinizde metin isteminden önce yerleştirin.
- Uzun bir dokümanınız varsa işleme almak için birden fazla PDF'ye bölmeyi düşünebilirsiniz.
- Taranmış resimlerdeki metinleri kullanmak yerine, metin olarak oluşturulan PDF'leri kullanın. Bu biçim, metnin makine tarafından okunabilir olmasını sağlar. Böylece, modelin tarayıcıdan alınan resim PDF'lerine kıyasla metni düzenlemesi, araması ve değiştirmesi daha kolay olur. Bu uygulama, sözleşmeler gibi metin ağırlıklı dokümanlarla çalışırken en iyi sonuçları sağlar.
Belgeler: Sınırlamalar
Gemini çoklu modeller birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- Uzamsal akıl yürütme: Modeller, PDF'lerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Yalnızca öğelerin yaklaşık sayılarını döndürebilirler.
- Doğruluk: PDF dosyalarındaki el yazısı metinleri yorumlarken modeller halüsinasyon görebilir.