Gdy wywołujesz funkcję Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (czyli typów danych wejściowych), takich jak tekst, obrazy, pliki PDF, filmy i dźwięk.
W przypadku części danych wejściowych, które nie są tekstem (np. plików multimedialnych), musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Na tej stronie opisano obsługiwane typy MIME, sprawdzone metody i ograniczenia dotyczące:
Wymagania dotyczące pakietów SDK Vertex AI in Firebase
W przypadku pakietów SDK Vertex AI in Firebase łączny maksymalny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, otrzymasz błąd HTTP 413.
Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj URL-a Cloud Storage for Firebase, aby uwzględnić plik w żądaniu multimodalnym.
Jeśli plik jest mały, możesz go przekazać bezpośrednio jako dane wstawione. Pamiętaj jednak, że plik przesłany jako dane wstawione jest w trakcie przesyłania kodowany w formacie Base64, co zwiększa rozmiar żądania. Przykłady pokazujące, jak uwzględniać pliki jako dane wstawione, znajdziesz w artykule Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API.
Zdjęcia: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących obrazów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME obrazów:
Typ MIME obrazu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG – image/png |
|||
JPEG – image/jpeg |
|||
WebP – image/webp |
Limity na żądanie
Nie ma określonego limitu liczby pikseli na obrazie. Jednak większe obrazy są zmniejszane i wypełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnego współczynnika proporcji.
Oto maksymalna dozwolona liczba plików graficznych w prośbie o prompt:
- Gemini 1.0 Pro Vision: 16 obrazów
- Gemini 1.5 Flash i Gemini 1.5 Pro: 3000 obrazów
Obrazy: tokenizacja
Oto sposób obliczania tokenów w przypadku obrazów:
- Gemini 1.0 Pro Vision: każde zdjęcie to 258 tokenów.
- Gemini 1.5 Flash i Gemini 1.5 Pro:
- Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokenów.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz zostaje przycięty na kafelki. Domyślny rozmiar każdej płytki to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każda płytka jest dostosowywana tak, aby nie była mniejsza niż 256 pikseli i nie większa niż 768 pikseli. Każda płytka jest następnie zmieniana na rozmiar 768 x 768 i korzysta z 258 tokenów.
Obrazy: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli chcesz wykrywać tekst na obrazie, użyj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z większą liczbą obrazów.
- Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w prośbie.
- Jeśli prompt zawiera kilka obrazów, a chcesz się do nich odnieść w późniejszym promptie lub w odpowiedzi modelu, możesz przed każdym obrazem podać jego numer. Użyj w przypadku indeksu polecenia
luba
b
c
. Oto przykład użycia indeksowanych obrazów w promptach:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze efekty.
- W prompcie umieść kilka przykładów.
- Przed dodaniem obrazów do promptu obróć je w odpowiednim kierunku.
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretacji zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modeli nie należy używać do identyfikowania na zdjęciach osób, które nie są celebrytami.
- Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretacji obrazów niskiej jakości, obróbionych lub o bardzo niskiej rozdzielczości. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.
Film: wymagania, sprawdzone metody i ograniczenia
Film: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących filmów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME wideo:
Typ MIME reklamy wideo | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV – video/x-flv |
|||
MOV – video/quicktime |
|||
MPEG – video/mpeg |
|||
MPEGPS – video/mpegps |
|||
MPG – video/mpg |
|||
MP4 – video/mp4 |
|||
WEBM – video/webm |
|||
WMV – video/wmv |
|||
3GPP – video/3gpp |
Limity na żądanie
Maksymalna dozwolona liczba plików wideo w prośbie o prompt:
- Gemini 1.0 Pro Vision: 1 plik wideo.
- Gemini 1.5 Flash i Gemini 1.5 Pro: 10 plików wideo
Film: tokenizacja
Oto jak są obliczane tokeny w przypadku filmów:
- Wszystkie modele multimodalne Gemini: filmy są próbkowane z częstotliwością
1 klatki na sekundę (fps) . Każda klatka filmu odpowiada 258 tokenom. - Gemini 1.5 Flash i Gemini 1.5 Pro: ścieżka audio jest kodowana za pomocą klatek wideo. Ścieżka audio jest też podzielona na
1-sekundowe segmenty , z których każdy składa się z 32 tokenów. Ramki wideo i tokeny audio są przeplatane z ich sygnaturami czasowymi. Sygnatury czasowe są reprezentowane przez 7 tokenów.
Film: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera 1 film, umieść go przed promptem tekstowym.
- Jeśli potrzebujesz lokalizacji sygnatury czasowej w wideo z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie
MM:SS
, gdzie pierwsze 2 cyfry oznaczają minuty, a ostatnie 2 cyfry – sekundy. Użyj tego samego formatu w przypadku pytań dotyczących sygnatury czasowej. Jeśli używasz Gemini 1.0 Pro Vision:
- Używaj nie więcej niż 1 filmu na prompt.
- Model przetwarza tylko informacje z pierwszych 2 minut filmu.
- Model przetwarza filmy jako niesąsiadujące ze sobą ramki obrazu z filmu. Nie zawiera dźwięku. Jeśli zauważysz, że modelka nie jest widoczna w pewnych miejscach filmu, spróbuj go skrócić, aby modelka zajmowała większą część treści.
- Model nie przetwarza żadnych informacji o dźwięku ani metadanych z czasem. Z tego powodu model może nie działać dobrze w przypadkach użycia, które wymagają danych wejściowych audio, takich jak napisy do dźwięku, lub informacji związanych z czasem, takich jak szybkość czy rytm.
Film: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Moderowanie treści: modelki odmawiają udzielania odpowiedzi na pytania dotyczące filmów, które naruszają nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Ruch przy dużej prędkości: modele mogą popełniać błędy podczas rozpoznawania ruchu przy dużej prędkości w filmie z powodu stałej częstotliwości próbkowania
1 klatka na sekundę (fps) . - Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących plików audio.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME audio:
Typ MIME pliku audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Limity na żądanie
W żądaniu prompta możesz dołączyć maksymalnie
Dźwięk: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Sygnatury czasowe tylko dźwięku: aby prawidłowo generować sygnatury czasowe plików tylko z dźwiękiem, musisz skonfigurować parametr
audio_timestamp
w plikugeneration_config
. - Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.
Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia
Dokumenty: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących dokumentów (np. PDF-ów).
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME dokumentów:
Typ MIME dokumentu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF – application/pdf |
|||
Tekst – text/plain |
Limity na żądanie
Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w promptach jest ograniczona do liczby obrazów, które model może obsługiwać:
- Gemini 1.0 Pro Vision: 16 stron
- Gemini 1.5 Pro i Gemini 1.5 Flash: 1000 stron
Dokumenty: tokenizacja
Tokenizacja PDF
Pliki PDF są traktowane jak obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.
Koszt PDF-ów jest zgodny z cenami obrazów w Gemini. Jeśli na przykład w wywołaniu interfejsu Gemini API załączysz plik PDF zawierający 2 strony, zostanie naliczona opłata za przetworzenie 2 obrazów.
Tokenizacja tekstu
Dokumenty w postaci zwykłego tekstu są tokenizowane jako tekst. Jeśli na przykład w wywołaniu interfejsu Gemini API podasz dokument tekstowy zawierający 100 słów, zostanie naliczona opłata za przetworzenie 100 słów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w prośbie.
- Jeśli masz długi dokument, możesz go podzielić na kilka plików PDF, aby go przetworzyć.
- Zamiast tekstu na zeskanowanych obrazach używaj plików PDF utworzonych z tekstem renderowanym jako tekst. Dzięki temu formatowi tekst jest czytelny dla maszyn, co ułatwia modelowi edytowanie, wyszukiwanie i modyfikowanie danych w porównaniu ze skanowanymi obrazami w formacie PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.
Dokumenty: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Dokładność: modele mogą generować błędy podczas interpretowania ręcznie pisanego tekstu w dokumentach PDF.