Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API

Gdy wywołujesz Vertex AI Gemini API z aplikacji za pomocą SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub typy danych wejściowych), np. tekst wraz z obrazami, plikami PDF, filmami lub dźwiękami.

W przypadku części danych nietekstowych (np. plików multimedialnych) musisz użyć obsługiwane typy plików, określ obsługiwany typ MIME i upewnij się, spełniają wymagania i są zgodne ze sprawdzonymi metodami.

Na tej stronie opisujemy obsługiwane typy MIME, sprawdzone metody i ograniczenia dla następujących elementów:

Wymagania dotyczące pakietów SDK usługi Vertex AI in Firebase

W przypadku Vertex AI in Firebase pakietów SDK maksymalny łączny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.



Obrazy: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku obrazów.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME obrazów:

Typ MIME obrazu Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG – image/png
JPEG – image/jpeg

Limity na żądanie

Nie ma ustalonego limitu liczby pikseli na obrazie. Pamiętaj jednak: większe obrazy są pomniejszone i dopełnione, aby zmieścić się w maksymalnej rozdzielczości 3072 x 3072 z zachowaniem pierwotnego formatu obrazu.

Oto maksymalna liczba plików graficznych w żądaniu promptu:

  • Gemini 1.0 Pro Vision: 16 obrazów
  • Gemini 1.5 Flash Gemini 1.5 Pro: 3000 obrazów

Obrazy: tokenizacja

Tokeny dla obrazów są obliczane w ten sposób:

  • Gemini 1.0 Pro Vision: każde zdjęcie konta na 258 tokenów.
  • Gemini 1.5 Flash Gemini 1.5 Pro:
    • Jeśli oba wymiary obrazu mają maksymalnie 384 piksele, używanych jest 258 tokenów.
    • Jeśli jeden wymiar obrazu ma więcej niż 384 piksele, wymiar obraz jest przycięty do kafelków. Domyślnie każdy kafelek ma najmniejszy rozmiar (szerokość lub wysokość) podzielone przez 1,5. W razie potrzeby każdy kafelek należy została dostosowana tak, by rozmiar nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Rozmiar każdego kafelka jest następnie zmieniany na 768 x 768 i składa się z 258 tokenów.

Obrazy: sprawdzone metody

W przypadku obrazów postępuj zgodnie z tymi sprawdzonymi metodami i informacjami dotyczącymi najlepsze wyniki:

  • Jeśli chcesz wykryć tekst na obrazie, używaj promptów z jednym obrazem, aby: dają lepsze wyniki niż prompty z wieloma obrazami.
  • Jeśli prompt zawiera pojedynczy obraz, umieść go przed tekstem w swoim żądaniu.
  • Jeśli prompt zawiera wiele obrazów i chcesz się do nich odwołać w dalszej części promptu lub w odpowiedzi modelu, pomocne może być nadanie każdemu obrazowi indeksu przed obrazem. Używaj a b c lub image 1 image 2 image 3 dla indeksu. Poniżej znajdziesz przykład wykorzystania zindeksowanych obrazów w tagu prompt:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Używaj obrazów o wyższej rozdzielczości. dają lepsze wyniki.
  • Umieść w prompcie kilka przykładów.
  • Przed dodaniem zdjęć do .
  • Unikaj rozmytych obrazów.

Obrazy: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:

  • Moderowanie treści: modele odmawiają udzielania odpowiedzi. obrazów naruszających nasze zasady bezpieczeństwa.
  • Rozumowanie przestrzenne: modele nie są precyzyjne, lokalizując je. tekstu ani obiektów na obrazach. Zwracają tylko przybliżone liczby obiektów.
  • Zastosowania medyczne: modele nie nadają się do interpretacji. obrazy medyczne (np. zdjęcia rentgenowskie i tomografia komputerowa) lub wykonywanie diagnozy medycznej z poradami.
  • Rozpoznawanie osób: modele nie są przeznaczone do: identyfikować na zdjęciach osoby, które nie są celebrytami.
  • Dokładność: modele mogą się mylić lub popełniać błędy przy interpretowaniu obrazów o niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą się też mylić, interpretując tekst odręczny dokumentów graficznych.



Filmy: wymagania, sprawdzone metody i ograniczenia

Film: wymagania

W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku film.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME wideo:

Typ MIME pliku wideo Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV – video/x-flv
MOV – video/mov
MPEG – video/mpeg
MPEGPS – video/mpegps
MPG – video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV – video/wmv
3GPP – video/3gpp

Limity na żądanie

Oto maksymalna liczba plików wideo dozwolonych w żądaniu promptu:

  • Gemini 1.0 Pro Vision: 1 plik wideo
  • Gemini 1.5 Flash Gemini 1.5 Pro: 10 plików wideo

Film: tokenizacja

Oto jak obliczane są tokeny dla wideo:

  • Wszystkie modele multimodalne Gemini: filmy są próbkowane o 1 klatka na sekundę (kl./s). Każda klatka wideo odpowiada za 258 tokeny.
  • Gemini 1.5 Flash Gemini 1.5 Pro: ścieżka audio jest zakodowana z klatkami wideo. Ścieżka dźwiękowa jest również podzielona na Jednosekundowe połączenia trunk, z których każde konto odpowiada 32 tokenom. Film ramki i tokeny audio są przeplatane z ich sygnaturami czasowymi. sygnatury czasowe są przedstawiane jako 7 tokenów.

Film: sprawdzone metody

Korzystając z filmów, stosuj te sprawdzone metody i informacje dotyczące najlepsze wyniki:

  • Jeśli prompt zawiera 1 film, umieść go przed tekstem .
  • Jeśli potrzebujesz lokalizacji sygnatury czasowej w filmie z dźwiękiem, zapytaj model. aby generować sygnatury czasowe w formacie MM:SS, gdzie pierwsze 2 cyfry to minuty, a dwie ostatnie cyfry to sekundy. Użyj format dla pytań o sygnaturę czasową.
  • Jeśli korzystasz z Gemini 1.0 Pro Vision, pamiętaj o tych kwestiach:

    • Używaj nie więcej niż 1 filmu na prompt.
    • Model przetwarza informacje tylko w ciągu pierwszych 2 minut w filmie.
    • Model przetwarza filmy jako nieprzylegające do siebie klatki z obrazu film. Nie obejmuje dźwięku. Jeśli zauważysz, że w modelu brakuje pewnych spróbuj go skrócić, tak aby model przechwytuje większą część treści wideo.
    • Model nie przetwarza żadnych informacji o dźwięku ani sygnatury czasowej metadanych. Z tego powodu model może nie działać dobrze w przypadkach użycia. które wymagają danych dźwiękowych, np. napisów lub dotyczą czasu. informacji takich jak szybkość czy rytm.

Film: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:

  • Moderowanie treści: modele odmawiają udzielania odpowiedzi. na filmach naruszających nasze zasady bezpieczeństwa.
  • Rozpoznawanie dźwięków innych niż mowa: modele, które obsługują dźwięk może popełniać błędy, rozpoznając dźwięk, który nie jest mową.
  • Ruch z dużą szybkością: modele mogą popełniać błędy rozpoznania szybkiego ruchu w filmie ze względu na Częstotliwość próbkowania 1 klatka na sekundę (kl./s)
  • Interpunkcja w transkrypcji: (w przypadku Gemini 1.5 Flash) Modele mogą wyświetlają transkrypcje bez znaków interpunkcyjnych.



Dźwięk: wymagania i ograniczenia

Dźwięk: wymagania

W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku audio.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME audio:

Typ MIME audio Gemini 1.5 Flash Gemini 1.5 Pro
AAC – audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA – audio/m4a
MPEG – audio/mpeg
MPGA – audio/mpga
MP4 – audio/mp4
OPUS – audio/opus
PCM – audio/pcm
WAV – audio/wav
WEBM – audio/webm

Limity na żądanie

Do prośby możesz dołączyć maksymalnie 1 plik audio.

Dźwięk: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:

  • Rozpoznawanie dźwięków innych niż mowa: modele, które obsługują dźwięk może popełniać błędy, rozpoznając dźwięk, który nie jest mową.
  • Sygnatury czasowe tylko dźwięku: modele, które obsługują dźwięk. nie może dokładnie generować sygnatur czasowych dla żądań z plikami audio. Ten obejmuje podział na segmenty i sygnatury czasowe lokalizacji. Sygnatury czasowe być generowane poprawnie w przypadku danych wejściowych obejmujących film zawierający dźwięk.
  • Interpunkcja w transkrypcji: (w przypadku Gemini 1.5 Flash) Modele mogą wyświetlają transkrypcje bez znaków interpunkcyjnych.



Dokumenty (np. PDF): wymagania, sprawdzone metody i ograniczenia.

Dokumenty: wymagania

W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku dokumentów (np. PDF).

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME dokumentów:

Typ MIME dokumentu Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF – application/pdf

Limity na żądanie

Pliki PDF są traktowane jak obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jedna . Liczba stron dozwolonych w prompcie jest ograniczona do liczby Obrazy obsługiwane przez model:

  • Gemini 1.0 Pro Vision: 16 stron
  • Gemini 1.5 Pro Gemini 1.5 Flash: 1000 stron

Dokumenty: tokenizacja

Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana jako obraz.

Oprócz tego koszt plików PDF Cennik obrazów Gemini. Na przykład jeśli do wywołania interfejsu Gemini API użyjesz dwustronicowego pliku PDF, wiąże się z naliczeniem opłaty wejściowej za przetworzenie dwóch obrazów.

Dokumenty: sprawdzone metody

Korzystając z plików PDF, postępuj zgodnie z tymi sprawdzonymi metodami i informacjami najlepsze wyniki:

  • Jeśli prompt zawiera 1 plik PDF, umieść go przed tekstem. w swoim żądaniu.
  • Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF. jego przetworzenie.
  • Używaj plików PDF z tekstem renderowanym jako tekst zamiast tekstu zeskanowanych obrazów. Ten format zapewnia, że tekst jest czytelny dla maszyn, jest łatwiejsza do edytowania, wyszukiwania i manipulacji w porównaniu z modelem pliki PDF z obrazami. Pozwala to uzyskać optymalne wyniki podczas pracy dokumentów z dużą ilością tekstu, takich jak umowy.

Dokumenty: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:

  • Rozumowanie przestrzenne: modele nie są precyzyjnie lokalizowane. tekst ani obiekty w plikach PDF. Zwracają tylko przybliżone liczby obiektów.
  • Dokładność: modele mogą się mylić przy interpretacji odręcznego tekstu w dokumentach PDF.