Obsługiwane pliki wejściowe i wymagania interfejsu API Vertex AI Gemini Gemini

Gdy wywołujesz Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst wraz z obrazami, plikami PDF, wideo i dźwiękowymi.

W przypadku nietekstowych części danych wejściowych (np. plików multimedialnych) musisz użyć obsługiwanych typów plików, wskazać obsługiwany typ MIME i sprawdzić, czy pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.

Na tej stronie opisujemy obsługiwane typy MIME, sprawdzone metody i ograniczenia dotyczące:

Wymagania dotyczące pakietów SDK Vertex AI in Firebase

W przypadku pakietów SDK (Vertex AI in Firebase) maksymalny łączny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.



Obrazy: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących obrazów.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME obrazów:

Typ MIME obrazu Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG – image/png
JPEG – image/jpeg
WebP – image/webp

Limity na żądanie

Nie ma ustalonego limitu liczby pikseli na obrazie. Większe obrazy są jednak pomniejszone i dopełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072 piksele, zachowując jednocześnie oryginalne proporcje.

Oto maksymalna liczba plików graficznych w żądaniu promptu:

  • Gemini 1.0 Pro Vision: 16 obrazów
  • Gemini 1.5 Flash i Gemini 1.5 Pro: 3000 obrazów

Obrazy: tokenizacja

Oto sposób obliczania tokenów w przypadku obrazów:

  • Gemini 1.0 Pro Vision: każdy obraz odpowiada za 258 tokenów.
  • Gemini 1.5 Flash i Gemini 1.5 Pro:
    • Jeśli oba wymiary obrazu mają maksymalnie 384 piksele, używanych jest 258 tokenów.
    • Jeśli jeden wymiar obrazu ma więcej niż 384 piksele, obraz jest przycinany do kafelków. Dla każdego kafelka domyślnie ustawiany jest najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Rozmiar każdego kafelka jest następnie zmieniany na 768 x 768 i składa się z 258 tokenów.

Obrazy: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

  • Jeśli chcesz wykrywać tekst na obrazie, używaj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż prompty z wieloma obrazami.
  • Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w swojej prośbie.
  • Jeśli prompt zawiera wiele obrazów i chcesz odwołać się do nich później w prompcie lub tak, aby model odwoływał się do nich w odpowiedzi modelu, warto nadać każdemu obrazowi indeks przed obrazem. Jako indeksu użyj a b c lub image 1 image 2 image 3. Oto przykład użycia zindeksowanych obrazów w prompcie:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze efekty.
  • Umieść w prompcie kilka przykładów.
  • Przed dodaniem obrazów do promptu obróć je do odpowiedniej orientacji.
  • Unikaj rozmytych obrazów.

Obrazy: ograniczenia

Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:

  • Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
  • Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżoną liczbę obiektów.
  • Zastosowania medyczne: modele nie nadają się do interpretacji zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
  • Rozpoznawanie osób: modeli nie należy używać do identyfikowania osób, które nie są sławnymi osobami na zdjęciach.
  • Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróbionych lub o bardzo niskiej rozdzielczości. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.



Filmy: wymagania, sprawdzone metody i ograniczenia

Film: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących filmów.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME wideo:

Typ MIME pliku wideo Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV – video/x-flv
MOV – video/quicktime
MPEG – video/mpeg
MPEGPS – video/mpegps
MPG – video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV – video/wmv
3GPP – video/3gpp

Limity na żądanie

Oto maksymalna liczba plików wideo dozwolonych w żądaniu promptu:

  • Gemini 1.0 Pro Vision: 1 plik wideo
  • Gemini 1.5 Flash i Gemini 1.5 Pro: 10 plików wideo

Film: tokenizacja

Oto jak obliczane są tokeny dla wideo:

  • Wszystkie modele multimodalne Gemini: filmy są próbkowane z szybkością 1 klatek na sekundę (kl./s). Każda klatka filmu odpowiada 258 tokenom.
  • Gemini 1.5 Flash i Gemini 1.5 Pro: ścieżka audio jest kodowana z klatkami wideo. Ścieżka audio jest też podzielona na 1-sekundowe segmenty, z których każdy składa się z 32 tokenów. Klatka wideo i tokeny audio są przeplatane ze sobą ich sygnaturami czasowymi. Sygnatury czasowe są przedstawione w postaci 7 tokenów.

Film: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

  • Jeśli prompt zawiera pojedynczy film, umieść go przed promptem tekstowym.
  • Jeśli potrzebujesz lokalizacji sygnatury czasowej w filmie z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie MM:SS, w którym pierwsze 2 cyfry to minuty, a ostatnie 2 cyfry to sekundy. Używaj tego samego formatu w przypadku pytań o sygnaturę czasową.
  • Jeśli korzystasz z Gemini 1.0 Pro Vision, pamiętaj o tych kwestiach:

    • Używaj nie więcej niż 1 filmu na prompt.
    • Model przetwarza informacje tylko w ciągu pierwszych 2 minut filmu.
    • Model przetwarza filmy jako niesąsiadujące ze sobą ramki obrazu z filmu. Nie obejmuje dźwięku. Jeśli zauważysz, że model nie ma niektórych treści filmu, spróbuj go skrócić, tak aby model przechwycił jego większą część.
    • Model nie przetwarza żadnych informacji audio ani metadanych sygnatury czasowej. Z tego powodu model może nie działać dobrze w przypadkach użycia, które wymagają danych wejściowych audio, takich jak napisy do dźwięku, lub informacji związanych z czasem, takich jak szybkość czy rytm.

Film: ograniczenia

Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:

  • Moderowanie treści: modele odmawiają odpowiadania w przypadku filmów, które naruszają nasze zasady bezpieczeństwa.
  • Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy, rozpoznając dźwięki inne niż mowa.
  • Ruch z dużą prędkością: modele mogą popełniać błędy w interpretacji filmów z dużą prędkością ze względu na stałą częstotliwość próbkowania 1 klatka na sekundę.
  • Interpunkcja w transkrypcji: (jeśli korzystasz z Gemini 1.5 Flash) Modele mogą zwracać transkrypcje bez znaków interpunkcyjnych.



Dźwięk: wymagania i ograniczenia

Dźwięk: wymagania

W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie dotyczące dźwięku.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME audio:

Typ MIME pliku audio Gemini 1.5 Flash Gemini 1.5 Pro
AAC – audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA – audio/m4a
MPEG – audio/mpeg
MPGA – audio/mpga
MP4 – audio/mp4
OPUS – audio/opus
PCM – audio/pcm
WAV – audio/wav
WEBM – audio/webm

Limity na żądanie

Do prośby możesz dołączyć maksymalnie 1 plik audio.

Dźwięk: ograniczenia

Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:

  • Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
  • Sygnatury czasowe tylko dla dźwięku: aby dokładnie generować sygnatury czasowe tylko w przypadku plików audio, musisz skonfigurować parametr audio_timestamp w generation_config.
  • Interpunkcja w transkrypcji: (jeśli korzystasz z Gemini 1.5 Flash) Modele mogą zwracać transkrypcje bez znaków interpunkcyjnych.



Dokumenty (np. PDF): wymagania, sprawdzone metody i ograniczenia.

Dokumenty: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących dokumentów (np. plików PDF).

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME dokumentów:

Typ MIME dokumentu Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF – application/pdf
Wyślij SMS-a – text/plain

Limity na żądanie

Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w promptach jest ograniczona do liczby obrazów, które model może obsługiwać:

  • Gemini 1.0 Pro Vision: 16 stron
  • Gemini 1.5 Pro i Gemini 1.5 Flash: 1000 stron

Dokumenty: tokenizacja

Tokenizacja plików PDF

Pliki PDF są traktowane jak obrazy, więc każda strona pliku PDF jest tokenizowana tak samo jak obraz.

Koszt PDF-ów jest też zgodny z cenami obrazów w Gemini. Jeśli na przykład do wywołania interfejsu Gemini API użyjesz dwustronicowego pliku PDF, zostanie naliczona opłata za dane wejściowe za przetworzenie 2 obrazów.

Tokenizacja tekstu

Dokumenty ze zwykłym tekstem są tokenizowane jako tekst. Jeśli na przykład do wywołania interfejsu Gemini API użyjesz dokumentu w postaci zwykłego tekstu na 100 słów, zostanie naliczona opłata za przetworzenie 100 słów.

Dokumenty: sprawdzone metody

Aby uzyskać najlepsze rezultaty w przypadku plików PDF, postępuj zgodnie z tymi sprawdzonymi metodami i informacjami:

  • Jeśli prompt zawiera 1 plik PDF, umieść go przed promptem tekstowym w prośbie.
  • Jeśli masz długi dokument, możesz podzielić go na kilka plików PDF, aby go przetworzyć.
  • zamiast tekstu na zeskanowanych obrazach; Ten format zapewnia czytelność tekstu dla maszyn, dzięki czemu model może łatwiej edytować, wyszukiwać i manipulować w porównaniu ze zeskanowanymi obrazami PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.

Dokumenty: ograniczenia

Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:

  • Rozumowanie przestrzenne: modele nie precyzyjnie lokalizują tekstu lub obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
  • Dokładność: modele mogą generować błędy podczas interpretowania ręcznie pisanego tekstu w dokumentach PDF.