Gdy wywołujesz funkcję Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub typy danych wejściowych), np. tekst wraz z obrazami, plikami PDF, filmami lub dźwiękami.
W przypadku części danych wejściowych, które nie są tekstem (np. plików multimedialnych), musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Na tej stronie opisujemy obsługiwane typy MIME, sprawdzone metody i ograniczenia dla następujących elementów:
Wymagania dotyczące pakietów SDK Vertex AI in Firebase
W przypadku Vertex AI in Firebase pakietów SDK maksymalny łączny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, otrzymasz błąd HTTP 413.
Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj adresu URL Cloud Storage for Firebase, aby dołączyć ten plik do żądania multimodalnego.
Jeśli plik jest mały, możesz go przekazać bezpośrednio jako dane wstawione. Pamiętaj jednak, że plik udostępniony jako dane wbudowane jest zakodowany w formacie base64 do przesyłania danych, co zwiększa rozmiar żądania. Przykłady pokazujące, jak uwzględniać pliki jako dane wstawione, znajdziesz w artykule Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API.
Obrazy: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku obrazów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME obrazów:
Typ MIME obrazu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG – image/png |
|||
JPEG – image/jpeg |
|||
WebP – image/webp |
Limity na żądanie
Nie ma określonego limitu liczby pikseli na obrazie. Jednak większe obrazy są zmniejszane i wypełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnego współczynnika proporcji.
Oto maksymalna dozwolona liczba plików graficznych w prośbie o prompt:
- Gemini 1.0 Pro Vision: 16 obrazów
- Gemini 1.5 Flash Gemini 1.5 Pro: 3000 obrazów
Obrazy: tokenizacja
Tokeny dla obrazów są obliczane w ten sposób:
- Gemini 1.0 Pro Vision: każde zdjęcie to 258 tokenów.
- Gemini 1.5 Flash
Gemini 1.5 Pro:
- Jeśli oba wymiary obrazu mają maksymalnie 384 piksele, używanych jest 258 tokenów.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz zostaje przycięty na kafelki. Domyślny rozmiar każdej płytki to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek należy została dostosowana tak, by rozmiar nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Każda płytka jest następnie zmieniana na rozmiar 768 x 768 i korzysta z 258 tokenów.
Obrazy: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli chcesz wykrywać tekst na obrazie, użyj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z większą liczbą obrazów.
- Jeśli prompt zawiera pojedynczy obraz, umieść go przed tekstem w swoim żądaniu.
- Jeśli prompt zawiera kilka obrazów i chcesz się do nich odnieść w późniejszym promptie lub w odpowiedzi modelu, możesz dodać przed każdym obrazem jego numer. Użyj
luba
b
c
dla indeksu. Oto przykład użycia obrazów indeksowanych w promptach:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze efekty.
- Umieść w prompcie kilka przykładów.
- Przed dodaniem obrazów do promptu obróć je w odpowiednią orientację.
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Modele multimodalne Gemini są bardzo przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Zwracają tylko przybliżone liczby obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretacji zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modeli nie należy używać do identyfikowania osób, które nie są sławnymi osobami na zdjęciach.
- Dokładność: modele mogą się mylić lub popełniać błędy przy interpretowaniu obrazów o niskiej jakości, obróconych lub bardzo niskiej rozdzielczości. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.
Filmy: wymagania, sprawdzone metody i ograniczenia
Film: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku film.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME wideo:
Typ MIME reklamy wideo | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV – video/x-flv |
|||
MOV – video/quicktime |
|||
MPEG – video/mpeg |
|||
MPEGPS – video/mpegps |
|||
MPG – video/mpg |
|||
MP4 – video/mp4 |
|||
WEBM – video/webm |
|||
WMV – video/wmv |
|||
3GPP – video/3gpp |
Limity na żądanie
Maksymalna dozwolona liczba plików wideo w prośbie o prompt:
- Gemini 1.0 Pro Vision: 1 plik wideo.
- Gemini 1.5 Flash Gemini 1.5 Pro: 10 plików wideo
Film: tokenizacja
Oto jak są obliczane tokeny w przypadku filmów:
- Wszystkie modele multimodalne Gemini: filmy są próbkowane o
1 klatka na sekundę (kl./s) . Każda klatka wideo odpowiada za 258 tokeny. - Gemini 1.5 Flash i Gemini 1.5 Pro: ścieżka audio jest kodowana z ramkami wideo. Ścieżka dźwiękowa jest również podzielona na
Jednosekundowe połączenia trunk , z których każde konto odpowiada 32 tokenom. Film ramki i tokeny audio są przeplatane z ich sygnaturami czasowymi. Sygnatury czasowe są reprezentowane przez 7 tokenów.
Film: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera 1 film, umieść go przed tekstem .
- Jeśli potrzebujesz lokalizacji sygnatury czasowej w wideo z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie
MM:SS
, gdzie pierwsze 2 cyfry oznaczają minuty, a 2 ostatnie – sekundy. Użyj tego samego formatu w przypadku pytań dotyczących sygnatury czasowej. Jeśli korzystasz z Gemini 1.0 Pro Vision, pamiętaj o tych kwestiach:
- Używaj nie więcej niż 1 filmu na prompt.
- Model przetwarza informacje tylko w ciągu pierwszych 2 minut w filmie.
- Model przetwarza filmy jako niesąsiadujące ze sobą ramki obrazu z filmu. Nie obejmuje dźwięku. Jeśli zauważysz, że w modelu brakuje pewnych spróbuj go skrócić, tak aby model przechwytuje większą część treści wideo.
- Model nie przetwarza żadnych informacji o dźwięku ani sygnatury czasowej metadanych. Z tego powodu model może nie działać dobrze w przypadkach użycia. które wymagają danych dźwiękowych, np. napisów lub funkcji czasowych. informacji takich jak szybkość czy rytm.
Film: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi. na filmach naruszających nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Ruch z dużą szybkością: modele mogą popełniać błędy
rozpoznania szybkiego ruchu w filmie ze względu na
Częstotliwość próbkowania
1 klatka na sekundę (kl./s) - Interpunkcja w transkrypcji: (w przypadku Gemini 1.5 Flash) Modele mogą wyświetlają transkrypcje bez znaków interpunkcyjnych.
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach na prośbę dotyczącą dźwięku.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME audio:
Typ MIME audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Limity na żądanie
W żądaniu prompta możesz dołączyć maksymalnie
Dźwięk: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:
- Rozpoznawanie dźwięków innych niż mowa: modele, które obsługują dźwięk może popełniać błędy, rozpoznając dźwięk, który nie jest mową.
- Sygnatury czasowe tylko w przypadku dźwięku: aby precyzyjnie generować
w przypadku plików tylko audio, musisz skonfigurować parametr
audio_timestamp
w aplikacjigeneration_config
. - Interpunkcja transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.
Dokumenty (np. PDF): wymagania, sprawdzone metody i ograniczenia.
Dokumenty: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach na żądanie dotyczące dokumentów (np. plików PDF).
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME dokumentów:
Typ MIME dokumentu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF – application/pdf |
|||
Wyślij SMS-a – text/plain |
Limity na żądanie
Pliki PDF są traktowane jak obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jedna . Liczba stron dozwolonych w prompcie jest ograniczona do liczby Obrazy obsługiwane przez model:
- Gemini 1.0 Pro Vision: 16 stron
- Gemini 1.5 Pro Gemini 1.5 Flash: 1000 stron
Dokumenty: tokenizacja
Tokenizacja PDF
Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana jako obraz.
Koszt PDF-ów jest zgodny z ceną za obrazy w Gemini. Na przykład jeśli do wywołania interfejsu Gemini API użyjesz dwustronicowego pliku PDF, wiąże się z naliczeniem opłaty wejściowej za przetworzenie dwóch obrazów.
Tokenizacja tekstu
Dokumenty ze zwykłym tekstem są tokenizowane jako tekst. Na przykład jeśli umieścisz zwykły tekst na 100 słów w wywołaniu interfejsu Gemini API, musisz zapłacić opłatę za przetworzenie 100 słów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera 1 plik PDF, umieść go przed tekstem. w swoim żądaniu.
- Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF. jego przetworzenie.
- Używaj plików PDF utworzonych z tekstem renderowanym jako tekst zamiast tekstu na zeskanowanych obrazach. Dzięki temu formatowi tekst jest czytelny dla maszyn, co ułatwia modelowi edycję, wyszukiwanie i modyfikowanie danych w porównaniu z skanowanymi obrazami w formacie PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.
Dokumenty: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Dokładność: modele mogą generować błędy podczas interpretacji tekstu odręcznego w dokumentach PDF.