Gdy wywołujesz Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst wraz z obrazami, plikami PDF, wideo i dźwiękowymi.
W przypadku nietekstowych części danych wejściowych (np. plików multimedialnych) musisz użyć obsługiwanych typów plików, wskazać obsługiwany typ MIME i sprawdzić, czy pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Na tej stronie opisujemy obsługiwane typy MIME, sprawdzone metody i ograniczenia dotyczące:
Wymagania dotyczące pakietów SDK Vertex AI in Firebase
W przypadku pakietów SDK (Vertex AI in Firebase) maksymalny łączny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.
Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj adresu URL Cloud Storage for Firebase, aby uwzględnić ten plik w żądaniu multimodalnym.
Jeśli plik jest mały, często można go przekazać bezpośrednio jako dane wbudowane. Pamiętaj jednak, że plik udostępniany jako dane wbudowane jest podczas przesyłania zakodowany w formacie base64, co zwiększa rozmiar żądania. Przykłady pokazujące, jak dołączać pliki jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie promptów multimodalnych przy użyciu interfejsu Gemini API.
Obrazy: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących obrazów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME obrazów:
Typ MIME obrazu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG – image/png |
|||
JPEG – image/jpeg |
|||
WebP – image/webp |
Limity na żądanie
Nie ma ustalonego limitu liczby pikseli na obrazie. Większe obrazy są jednak pomniejszone i dopełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072 piksele, zachowując jednocześnie oryginalne proporcje.
Oto maksymalna liczba plików graficznych w żądaniu promptu:
- Gemini 1.0 Pro Vision: 16 obrazów
- Gemini 1.5 Flash i Gemini 1.5 Pro: 3000 obrazów
Obrazy: tokenizacja
Oto sposób obliczania tokenów w przypadku obrazów:
- Gemini 1.0 Pro Vision: każdy obraz odpowiada za 258 tokenów.
- Gemini 1.5 Flash i
Gemini 1.5 Pro:
- Jeśli oba wymiary obrazu mają maksymalnie 384 piksele, używanych jest 258 tokenów.
- Jeśli jeden wymiar obrazu ma więcej niż 384 piksele, obraz jest przycinany do kafelków. Dla każdego kafelka domyślnie ustawiany jest najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Rozmiar każdego kafelka jest następnie zmieniany na 768 x 768 i składa się z 258 tokenów.
Obrazy: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli chcesz wykrywać tekst na obrazie, używaj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż prompty z wieloma obrazami.
- Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w swojej prośbie.
- Jeśli prompt zawiera wiele obrazów i chcesz odwołać się do nich później w prompcie lub tak, aby model odwoływał się do nich w odpowiedzi modelu, warto nadać każdemu obrazowi indeks przed obrazem. Jako indeksu użyj
luba
b
c
. Oto przykład użycia zindeksowanych obrazów w prompcie:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze efekty.
- Umieść w prompcie kilka przykładów.
- Przed dodaniem obrazów do promptu obróć je do odpowiedniej orientacji.
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretacji zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modeli nie należy używać do identyfikowania osób, które nie są sławnymi osobami na zdjęciach.
- Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróbionych lub o bardzo niskiej rozdzielczości. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.
Filmy: wymagania, sprawdzone metody i ograniczenia
Film: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących filmów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME wideo:
Typ MIME pliku wideo | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV – video/x-flv |
|||
MOV – video/quicktime |
|||
MPEG – video/mpeg |
|||
MPEGPS – video/mpegps |
|||
MPG – video/mpg |
|||
MP4 – video/mp4 |
|||
WEBM – video/webm |
|||
WMV – video/wmv |
|||
3GPP – video/3gpp |
Limity na żądanie
Oto maksymalna liczba plików wideo dozwolonych w żądaniu promptu:
- Gemini 1.0 Pro Vision: 1 plik wideo
- Gemini 1.5 Flash i Gemini 1.5 Pro: 10 plików wideo
Film: tokenizacja
Oto jak obliczane są tokeny dla wideo:
- Wszystkie modele multimodalne Gemini: filmy są próbkowane z szybkością
1 klatek na sekundę (kl./s) . Każda klatka filmu odpowiada 258 tokenom. - Gemini 1.5 Flash i Gemini 1.5 Pro: ścieżka audio jest kodowana z klatkami wideo. Ścieżka audio jest też podzielona na
1-sekundowe segmenty , z których każdy składa się z 32 tokenów. Klatka wideo i tokeny audio są przeplatane ze sobą ich sygnaturami czasowymi. Sygnatury czasowe są przedstawione w postaci 7 tokenów.
Film: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera pojedynczy film, umieść go przed promptem tekstowym.
- Jeśli potrzebujesz lokalizacji sygnatury czasowej w filmie z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie
MM:SS
, w którym pierwsze 2 cyfry to minuty, a ostatnie 2 cyfry to sekundy. Używaj tego samego formatu w przypadku pytań o sygnaturę czasową. Jeśli korzystasz z Gemini 1.0 Pro Vision, pamiętaj o tych kwestiach:
- Używaj nie więcej niż 1 filmu na prompt.
- Model przetwarza informacje tylko w ciągu pierwszych 2 minut filmu.
- Model przetwarza filmy jako niesąsiadujące ze sobą ramki obrazu z filmu. Nie obejmuje dźwięku. Jeśli zauważysz, że model nie ma niektórych treści filmu, spróbuj go skrócić, tak aby model przechwycił jego większą część.
- Model nie przetwarza żadnych informacji audio ani metadanych sygnatury czasowej. Z tego powodu model może nie działać dobrze w przypadkach użycia, które wymagają danych wejściowych audio, takich jak napisy do dźwięku, lub informacji związanych z czasem, takich jak szybkość czy rytm.
Film: ograniczenia
Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:
- Moderowanie treści: modele odmawiają odpowiadania w przypadku filmów, które naruszają nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy, rozpoznając dźwięki inne niż mowa.
- Ruch z dużą prędkością: modele mogą popełniać błędy w interpretacji filmów z dużą prędkością ze względu na stałą częstotliwość próbkowania
1 klatka na sekundę . - Interpunkcja w transkrypcji: (jeśli korzystasz z Gemini 1.5 Flash) Modele mogą zwracać transkrypcje bez znaków interpunkcyjnych.
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie dotyczące dźwięku.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME audio:
Typ MIME pliku audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Limity na żądanie
Do prośby możesz dołączyć maksymalnie
Dźwięk: ograniczenia
Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Sygnatury czasowe tylko dla dźwięku: aby dokładnie generować sygnatury czasowe tylko w przypadku plików audio, musisz skonfigurować parametr
audio_timestamp
wgeneration_config
. - Interpunkcja w transkrypcji: (jeśli korzystasz z Gemini 1.5 Flash) Modele mogą zwracać transkrypcje bez znaków interpunkcyjnych.
Dokumenty (np. PDF): wymagania, sprawdzone metody i ograniczenia.
Dokumenty: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących dokumentów (np. plików PDF).
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME dokumentów:
Typ MIME dokumentu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF – application/pdf |
|||
Wyślij SMS-a – text/plain |
Limity na żądanie
Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w promptach jest ograniczona do liczby obrazów, które model może obsługiwać:
- Gemini 1.0 Pro Vision: 16 stron
- Gemini 1.5 Pro i Gemini 1.5 Flash: 1000 stron
Dokumenty: tokenizacja
Tokenizacja plików PDF
Pliki PDF są traktowane jak obrazy, więc każda strona pliku PDF jest tokenizowana tak samo jak obraz.
Koszt PDF-ów jest też zgodny z cenami obrazów w Gemini. Jeśli na przykład do wywołania interfejsu Gemini API użyjesz dwustronicowego pliku PDF, zostanie naliczona opłata za dane wejściowe za przetworzenie 2 obrazów.
Tokenizacja tekstu
Dokumenty ze zwykłym tekstem są tokenizowane jako tekst. Jeśli na przykład do wywołania interfejsu Gemini API użyjesz dokumentu w postaci zwykłego tekstu na 100 słów, zostanie naliczona opłata za przetworzenie 100 słów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze rezultaty w przypadku plików PDF, postępuj zgodnie z tymi sprawdzonymi metodami i informacjami:
- Jeśli prompt zawiera 1 plik PDF, umieść go przed promptem tekstowym w prośbie.
- Jeśli masz długi dokument, możesz podzielić go na kilka plików PDF, aby go przetworzyć.
- zamiast tekstu na zeskanowanych obrazach; Ten format zapewnia czytelność tekstu dla maszyn, dzięki czemu model może łatwiej edytować, wyszukiwać i manipulować w porównaniu ze zeskanowanymi obrazami PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.
Dokumenty: ograniczenia
Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:
- Rozumowanie przestrzenne: modele nie precyzyjnie lokalizują tekstu lub obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Dokładność: modele mogą generować błędy podczas interpretowania ręcznie pisanego tekstu w dokumentach PDF.