Vertex AI Gemini API için desteklenen giriş dosyaları ve gereksinimleri

Uygulamanızdan Vertex AI Gemini API çağrılırken Vertex AI in Firebase SDK'sında, Gemini modelini metin oluşturmasını isteyebilirsiniz. bir girişe göre değişir. Çok modlu istemler, birden fazla modalite içerebilir. (veya giriş türleri) kullanabilirsiniz.

Girişin metin olmayan kısımları için (ör. medya dosyaları) desteklenen dosya türlerini seçin, desteklenen bir MIME türü belirtin ve dosyaların ve çok modlu isteklerin gereksinimleri karşılayıp en iyi uygulamaları izlemesi gerekir.

Bu sayfada, desteklenen MIME türleri, en iyi uygulamalar ve sınırlamalar açıklanmaktadır. şunun için:

Vertex AI in Firebase SDK'larına özel şartlar

Vertex AI in Firebase SDK için maksimum toplam istek boyutu: 20 MB. İstek çok büyükse HTTP 413 hatası alırsınız.



Görseller: Koşullar, en iyi uygulamalar ve sınırlamalar

Resimler: Gereksinimler

Bu bölümde, desteklenen MIME türleri ve resim.

Desteklenen MIME türleri

Gemini çok modlu modelleri aşağıdaki resim MIME türlerini destekler:

Resim MIME türü Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vizyonu
PNG - image/png
JPEG - image/jpeg

İstek başına sınırlar

Bir resimdeki piksel sayısıyla ilgili belirli bir sınır yoktur. Ancak, daha büyük resimler küçültülür ve maksimum 3072x çözünürlüğe sığacak şekilde doldurulur 3072'ye erişirken orijinal en boy oranı korunur.

Bir istem isteğinde izin verilen maksimum resim dosyası sayısı aşağıda verilmiştir:

  • Gemini 1.0 Pro Vision: 16 resim
  • Gemini 1.5 Flash ve Gemini 1.5 Pro: 3.000 görüntü

Görüntüler: Tokenizasyon

Resimler için jetonların nasıl hesaplandığı aşağıda açıklanmıştır:

  • Gemini 1.0 Pro Vision: Her görsel 258 jeton.
  • Gemini 1.5 Flash ve Gemini 1.5 Pro:
    • Bir resmin her iki boyutu da 384 pikselden az veya 384 piksele eşitse 258 jeton kullanılır.
    • Resmin bir boyutu 384 pikselden büyükse resim karolara kırpıldı. Her karo boyutu varsayılan olarak en küçük olandır boyut (genişlik veya yükseklik) 1,5'e bölünür. Gerekirse her karo 256 pikselden küçük ve 256 pikselden büyük olmayacak şekilde ayarlanır 768 piksel. Daha sonra her karo 768x768 olarak yeniden boyutlandırılır ve 258 jeton kullanılır.

Görseller: En iyi uygulamalar

Resimleri kullanırken aşağıdaki en iyi uygulamalardan ve bilgilerden en iyi sonuçlar:

  • Bir görseldeki metni algılamak istiyorsanız tek bir resim içeren istemleri kullanarak ve birden fazla resim içeren istemlere kıyasla daha iyi sonuçlar verir.
  • İsteminizde tek bir resim varsa resmi metnin önüne yerleştirin isteminde bulunun.
  • İsteminiz birden fazla resim içeriyorsa ve bu resimlere başvurmak istiyorsanız veya model yanıtında modelin bunlara başvurmasını sağlayabilirsiniz. her resme resimden önce dizin verilmesi yardımcı olabilir. Tekliflerinizi otomatikleştirmek ve optimize etmek için a b c veya image 1 image 2 image 3 oluşturmanız gerekir. Aşağıda, istem:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Daha yüksek çözünürlüklü resimler kullanın; daha iyi sonuçlar verirler.
  • İsteme birkaç örnek ekleyin.
  • Resimleri tıklayın.
  • Bulanık resimler kullanmaktan kaçının.

Görseller: Sınırlamalar

Gemini'ın çok modlu modelleri, pek çok çok modlu kullanımda güçlü olsa da durumlarda, modellerin sınırlamalarını anlamak önemlidir:

  • İçerik moderasyonu: Modeller yanıt vermeyi reddediyor güvenlik politikalarımızı ihlal eden resimlere.
  • Uzamsal akıl yürütme: Modellerin yerini belirleme konusunda hassas değil görsellerdeki metin veya nesnelerden ibarettir. Bunlar yalnızca nesneler'i tıklayın.
  • Tıbbi kullanımlar: Modeller yorumlanmaya uygun değildir tıbbi görüntüler (örneğin, röntgen ve tomografi) ya da tıbbi bilgiler sağlama tavsiye ederim.
  • İnsanları tanıma: Modeller, aşağıdaki amaçlarla kullanılamaz: resimlerde ünlü olmayan kişileri tespit etmek.
  • Doğruluk: Modeller halüsinasyon sorunu nedeniyle hata yapabilir düşük kaliteli, döndürülmüş veya çok düşük çözünürlüklü resimleri yorumlar. Modeller ayrıca el yazısı metinleri görsel dokümanları.



Video: Koşullar, en iyi uygulamalar ve sınırlamalar

Video: Gereksinimler

Bu bölümde, desteklenen MIME türleri ve videosunu izleyin.

Desteklenen MIME türleri

Gemini çok modlu modelleri aşağıdaki video MIME türlerini destekler:

Video MIME türü Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vizyonu
FLV - video/x-flv
FİLM - video/mov
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4: video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

İstek başına sınırlar

Bir istem isteğinde izin verilen maksimum video dosyası sayısı aşağıda belirtilmiştir:

  • Gemini 1.0 Pro Vision: 1 video dosyası
  • Gemini 1.5 Flash ve Gemini 1.5 Pro: 10 video dosyası

Video: Tokenizasyon

Video için jetonların nasıl hesaplandığı aşağıda açıklanmıştır:

  • Tüm Gemini çok modlu modelleri: Videoların örneklenme yeri: Saniyede 1 kare (fps). Her video karesi 258 kareyi temsil eder jeton.
  • Gemini 1.5 Flash ve Gemini 1.5 Pro: Ses parçası kodlanmış video çerçeveleriyle. Ses parçası da daha sonra Her biri 32 jetona karşılık gelen 1 saniyelik santraller. Video kare ve ses jetonları zaman damgalarıyla birlikte araya eklenir. İlgili içeriği oluşturmak için kullanılan zaman damgaları 7 jeton olarak temsil edilir.

Video: En iyi uygulamalar

Videoyu kullanırken şunlar için en iyi uygulamalardan ve bilgilerden yararlanın: en iyi sonuçlar:

  • İsteminizde tek bir video varsa videoyu metnin önüne yerleştirin. tıklayın.
  • Sesli bir videoda zaman damgası yerelleştirmesi gerekiyorsa modele sorun. zaman damgaları oluşturmak için MM:SS biçiminde rakamlar dakikayı, son iki basamak ise saniyeyi temsil eder. Şunu kullanın: sorular için de aynı biçimi kullanın.
  • Gemini 1.0 Pro Vision kullanıyorsanız aşağıdakilere dikkat edin:

    • İstem başına birden fazla video kullanmayın.
    • Model yalnızca ilk iki dakikadaki bilgileri seçeceğiz.
    • Model, videoları ana makineden bitişik olmayan videosunu izleyin. Ses dahil değildir. Modelde bazı bilgilerin eksik olduğunu videoyu kısaltmaya çalışın; böylece modelin Video içeriğinin daha büyük bir kısmını yakalıyor.
    • Model, ses bilgilerini veya zaman damgasını işlemez. meta verilerdir. Bu nedenle model, kullanım alanlarında iyi performans göstermeyebilir. altyazılı ses gibi ses girişi gerektiren veya zamanla ilişkili videolar hız veya ritim gibi bilgileri de kullanabilirsiniz.

Video: Sınırlamalar

Gemini'ın çok modlu modelleri, pek çok çok modlu kullanımda güçlü olsa da durumlarda, modellerin sınırlamalarını anlamak önemlidir:

  • İçerik moderasyonu: Modeller yanıt vermeyi reddediyor Güvenlik politikalarımızı ihlal eden videolarda.
  • Konuşma dışı ses tanıma: Destekleyen modeller ses, konuşma dışındaki sesi tanırken hata yapabilir.
  • Yüksek hızlı hareket: Modeller hata yapabilir videodaki yüksek hızlı hareketin sabit Saniyede 1 kare (fps) örnekleme hızı.
  • Metne dönüştürme noktalama: (Gemini 1.5 Flash kullanılıyorsa) Modeller noktalama işareti içermeyen transkriptleri döndürür.



Ses: Şartlar ve sınırlamalar

Ses: Koşullar

Bu bölümde, desteklenen MIME türleri ve ses'e dokunun.

Desteklenen MIME türleri

Gemini çok modlu modelleri, aşağıdaki ses MIME türlerini destekler:

Ses MIME türü Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4: audio/mp4
OPUS - audio/opus
PCM: audio/pcm
WAV - audio/wav
WEBM - audio/webm

İstek başına sınırlar

Bir istem isteğine en fazla 1 ses dosyası ekleyebilirsiniz.

Ses: Sınırlamalar

Gemini'ın çok modlu modelleri, pek çok çok modlu kullanımda güçlü olsa da durumlarda, modellerin sınırlamalarını anlamak önemlidir:

  • Konuşma dışı ses tanıma: Destekleyen modeller ses, konuşma dışındaki sesi tanırken hata yapabilir.
  • Yalnızca ses zaman damgaları: Sesi destekleyen modeller , ses dosyası içeren istekler için doğru zaman damgaları oluşturamaz. Bu segmentasyon ve zamansal yerelleştirme zaman damgalarını içerir. Zaman damgaları Ses içeren bir video içeren girişler için doğru şekilde oluşturulur.
  • Metne dönüştürme noktalama: (Gemini 1.5 Flash kullanılıyorsa) Modeller noktalama işareti içermeyen transkriptleri döndürür.



Dokümanlar (PDF gibi): Koşullar, en iyi uygulamalar ve sınırlamalar

Belgeler: Gereksinimler

Bu bölümde, desteklenen MIME türleri ve PDF'ler gibi).

Desteklenen MIME türleri

Gemini çok modlu modelleri, aşağıdaki belge MIME türlerini destekler:

Doküman MIME türü Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vizyonu
PDF - application/pdf

İstek başına sınırlar

PDF'ler resim olarak işlendiğinden, PDF'nin tek bir sayfası tek bir sayfa olarak değerlendirilir görüntüsüdür. Bir istemde izin verilen sayfa sayısı, modelin destekleyebileceği resimler:

  • Gemini 1.0 Pro Vision: 16 sayfa
  • Gemini 1.5 Pro ve Gemini 1.5 Flash: 1.000 sayfa

Belgeler: Tokenizasyon

PDF'ler resim olarak işlendiğinden, bir PDF'nin her sayfası aynı bir resim olarak görür.

Ayrıca, PDF'lerin maliyeti şu şekildedir: Gemini resim fiyatlandırması. Örneğin, Gemini API çağrısına iki sayfalık bir PDF eklerseniz iki resmin işlenmesi için giriş ücreti alınır.

Belgeler: En iyi uygulamalar

PDF kullanırken en iyi sonuçlar:

  • İsteminizde tek bir PDF varsa PDF'yi metnin önüne yerleştirin isteminde bulunun.
  • Uzun bir dokümanınız varsa birden çok PDF'ye bölebilirsiniz lütfen unutmayın.
  • Metin yerine, metin olarak oluşturulan PDF'leri kullanın taranmış resim. Bu biçim, metnin makine tarafından okunabilir olmasını sağlar. Böylece modelin düzenleme, arama ve işlemesi, tarananlara kıyasla daha kolaydır resim PDF'leridir. Bu uygulama, yüksek kaliteli anahtar kelimelerle çalışırken çok fazla metin içeren dokümanlardır.

Dokümanlar: Sınırlamalar

Gemini'ın çok modlu modelleri, pek çok çok modlu kullanımda güçlü olsa da durumlarda, modellerin sınırlamalarını anlamak önemlidir:

  • Uzamsal akıl yürütme: Modellerin yerini belirleme konusunda hassas değil PDF'lerdeki metin veya nesneler. Bunlar yalnızca nesneler'i tıklayın.
  • Doğruluk: Modeller yorum yaparken halüsinasyon sorunu yaşayabilir PDF dokümanlarında el yazısı metinler.