Gdy wywołujesz Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (czyli typów danych wejściowych), takich jak tekst, obrazy, pliki PDF, filmy i dźwięk.
W przypadku części danych wejściowych, które nie są tekstowe (np. plików multimedialnych), musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Na tej stronie opisano obsługiwane typy MIME, sprawdzone metody i ograniczenia dotyczące:
Wymagania dotyczące pakietów SDK Vertex AI in Firebase
W przypadku pakietów SDK Vertex AI in Firebase łączny maksymalny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, otrzymasz błąd HTTP 413.
Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj adresu URL Cloud Storage for Firebase, aby uwzględnić ten plik w żądaniu multimodalnym.
Jeśli plik jest mały, możesz go przekazać bezpośrednio jako dane wstawione. Pamiętaj jednak, że plik przesłany jako dane wstawione jest w trakcie przesyłania kodowany do formatu Base64, co zwiększa rozmiar żądania. Przykłady pokazujące, jak dołączać pliki jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie promptów multimodalnych przy użyciu interfejsu Gemini API.
Zdjęcia: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie obrazów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME obrazów:
Typ MIME obrazu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG – image/png |
|||
JPEG – image/jpeg |
|||
WebP – image/webp |
Limity na żądanie
Nie ma określonego limitu liczby pikseli na obrazie. Jednak większe obrazy są zmniejszane i wypełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnego współczynnika proporcji.
Oto maksymalna dozwolona liczba plików graficznych w prośbie o prompt:
- Gemini 1.0 Pro Vision: 16 obrazów
- Gemini 1.5 Flash i Gemini 1.5 Pro: 3000 obrazów
Obrazy: tokenizacja
Oto sposób obliczania tokenów w przypadku obrazów:
- Gemini 1.0 Pro Vision: każdy obraz odpowiada za 258 tokenów.
- Gemini 1.5 Flash i Gemini 1.5 Pro:
- Jeśli oba wymiary obrazu mają maksymalnie 384 piksele, używanych jest 258 tokenów.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest przycinany do formatu kafelkowego. Domyślny rozmiar każdej płytki to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Każda płytka jest następnie zmieniana na rozmiar 768 x 768 i korzysta z 258 tokenów.
Obrazy: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli chcesz wykrywać tekst na obrazie, użyj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z większą liczbą obrazów.
- Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w swojej prośbie.
- Jeśli prompt zawiera kilka obrazów, a chcesz się do nich odnieść w późniejszym promptie lub w odpowiedzi modelu, możesz przed każdym obrazem podać jego numer. Użyj w przypadku indeksu polecenia
luba
b
c
. Oto przykład użycia obrazów indeksowanych w promptach:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj obrazów o wyższej rozdzielczości – dają one lepsze wyniki.
- Umieść w prompcie kilka przykładów.
- Przed dodaniem obrazów do promptu obróć je w odpowiednią orientację.
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi w przypadku obrazów, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie precyzyjnie lokalizują tekstu lub obiektów na obrazach. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretacji zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modeli nie należy używać do identyfikowania osób, które nie są sławnymi osobami na zdjęciach.
- Dokładność: podczas interpretowania obrazów o niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości modele mogą się mylić lub popełniać błędy. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.
Film: wymagania, sprawdzone metody i ograniczenia
Film: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących filmów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME wideo:
Typ MIME pliku wideo | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV – video/x-flv |
|||
MOV – video/quicktime |
|||
MPEG – video/mpeg |
|||
MPEGPS – video/mpegps |
|||
MPG – video/mpg |
|||
MP4 – video/mp4 |
|||
WEBM – video/webm |
|||
WMV – video/wmv |
|||
3GPP – video/3gpp |
Limity na żądanie
Maksymalna dozwolona liczba plików wideo w prośbie o prompt:
- Gemini 1.0 Pro Vision: 1 plik wideo.
- Gemini 1.5 Flash i Gemini 1.5 Pro: 10 plików wideo
Film: tokenizacja
Oto jak są obliczane tokeny w przypadku filmów:
- Wszystkie modele multimodalne Gemini: filmy są próbkowane z częstotliwością
1 klatki na sekundę (fps) . Każda klatka filmu odpowiada 258 tokenom. - Gemini 1.5 Flash i Gemini 1.5 Pro: ścieżka audio jest kodowana z klatkami wideo. Ścieżka audio jest też podzielona na
1-sekundowe segmenty , z których każdy składa się z 32 tokenów. Ramki wideo i tokeny audio są przeplatane z ich sygnaturami czasowymi. Sygnatury czasowe są przedstawione w postaci 7 tokenów.
Film: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera pojedynczy film, umieść go przed promptem tekstowym.
- Jeśli potrzebujesz lokalizacji sygnatury czasowej w wideo z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie
MM:SS
, gdzie pierwsze 2 cyfry oznaczają minuty, a 2 ostatnie – sekundy. Użyj tego samego formatu w przypadku pytań dotyczących sygnatury czasowej. Jeśli korzystasz z Gemini 1.0 Pro Vision, pamiętaj o tych kwestiach:
- Używaj nie więcej niż 1 filmu na prompt.
- Model przetwarza tylko informacje z pierwszych 2 minut filmu.
- Model przetwarza filmy jako niesąsiadujące ze sobą ramki obrazu z filmu. Nie zawiera dźwięku. Jeśli zauważysz, że modelka nie jest widoczna w pewnych miejscach filmu, spróbuj go skrócić, aby modelka zajmowała większą część treści.
- Model nie przetwarza żadnych informacji audio ani metadanych sygnatury czasowej. Z tego powodu model może nie działać dobrze w przypadkach użycia, które wymagają danych wejściowych audio, takich jak napisy do dźwięku, lub informacji związanych z czasem, takich jak szybkość czy rytm.
Film: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Moderowanie treści: modelki odmawiają udzielania odpowiedzi na pytania dotyczące filmów, które naruszają nasze zasady dotyczące bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Ruch przy dużej prędkości: modele mogą popełniać błędy podczas rozpoznawania ruchu przy dużej prędkości w filmie z powodu stałej częstotliwości próbkowania
1 klatka na sekundę (fps) . - Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach na prośbę dotyczącą dźwięku.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME audio:
Typ MIME pliku audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Limity na żądanie
W żądaniu prompta możesz dołączyć maksymalnie
Dźwięk: ograniczenia
Modele multimodalne Gemini są przydatne w wielu przypadkach multimodalnych, jednak ważne jest, aby rozumieć ich ograniczenia:
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Sygnatury czasowe tylko dźwięku: aby prawidłowo generować sygnatury czasowe plików tylko z dźwiękiem, musisz skonfigurować parametr
audio_timestamp
w plikugeneration_config
. - Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.
Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia
Dokumenty: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących dokumentów (np. plików PDF).
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME dokumentów:
Typ MIME dokumentu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF – application/pdf |
|||
Tekst – text/plain |
Limity na żądanie
Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w promptach jest ograniczona do liczby obrazów, które model może obsługiwać:
- Gemini 1.0 Pro Vision: 16 stron
- Gemini 1.5 Pro i Gemini 1.5 Flash: 1000 stron
Dokumenty: tokenizacja
Tokenizacja plików PDF
Pliki PDF są traktowane jak obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.
Poza tym koszt plików PDF jest zgodny z cennikiem obrazów Gemini. Jeśli na przykład w wywołaniu interfejsu Gemini API załączysz plik PDF zawierający 2 strony, zostanie naliczona opłata za przetworzenie 2 obrazów.
Tokenizacja zwykłego tekstu
Dokumenty ze zwykłym tekstem są tokenizowane jako tekst. Jeśli na przykład w wywołaniu interfejsu Gemini API podasz dokument tekstowy zawierający 100 słów, zostanie naliczona opłata za przetworzenie 100 słów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze rezultaty w przypadku plików PDF, postępuj zgodnie z tymi sprawdzonymi metodami i informacjami:
- Jeśli prompt zawiera 1 plik PDF, umieść go przed promptem tekstowym w prośbie.
- Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF, aby można było go przetworzyć.
- zamiast tekstu na zeskanowanych obrazach; Dzięki temu formatowi tekst jest czytelny dla maszyn, co ułatwia modelowi edycję, wyszukiwanie i modyfikowanie danych w porównaniu z skanowanymi obrazami w formacie PDF. Ta metoda zapewnia optymalne wyniki w przypadku pracy z dokumentami z dużą ilością tekstu, takimi jak umowy.
Dokumenty: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Dokładność: modele mogą generować błędy podczas interpretowania ręcznie pisanego tekstu w dokumentach PDF.