Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Ta strona została przetłumaczona przez Cloud Translation API.

Obsługiwane pliki wejściowe i wymagania interfejsu API Vertex AI Gemini Gemini

Gdy wywołujesz funkcję Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (czyli typów danych wejściowych), takich jak tekst, obrazy, pliki PDF, filmy i dźwięk.

W przypadku części danych wejściowych, które nie są tekstem (np. plików multimedialnych), musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.

Na tej stronie znajdziesz informacje na te tematy:

Opcje przesyłania plików w żądaniu.
Szczegółowe informacje o obsługiwanych typach MIME, sprawdzonych metodach i ograniczeniach dotyczących tych typów danych wejściowych:
Obrazy | Wideo | Dźwięk | Dokumenty (np. pliki PDF).

Opcje przesyłania plików w zapytaniach multimodalnych

W każdej prośbie multimodalnej musisz podać te informacje:

Plik mimeType. Obsługiwane typy MIME poszczególnych plików wejściowych znajdziesz w odpowiedniej sekcji tej strony.
Plik. Możesz przekazać plik za pomocą jego adresu URL lub identyfikatora URI albo przekazać plik jako dane wstawione.

Rozmiar i liczbę plików, które możesz podać w żądaniu, określa typ pliku wejściowego, sposób ich przesyłania i użyty model (szczegółowe informacje znajdziesz w sekcji dotyczącej każdego typu pliku wejściowego na tej stronie).

Opcja 1. Podaj plik za pomocą adresu URL lub identyfikatora URI.

Oto dopuszczalne typy adresów URL lub URI:

Cloud Storage for FirebaseURL zasobnika: adres URL pliku musi być publiczny lub zalogowany użytkownik lub klient musi mieć wystarczający dostęp do pliku. Dowiedz się więcej o Cloud Storage for Firebase korzyściach, wymaganiach dotyczących adresów URL i przykładach kodu.
Google Cloud Storage adres URL zasobów: adres URL pliku musi być publiczny.
Adresy URL przeglądarki lub HTTP: adres URL pliku musi być publicznie dostępny do odczytu. Przykłady: adresy URL z witryn hostujących multimedia, adresy URL, które bezpośrednio wyświetlają multimedia (nie stronę internetową z multimediami), lub opublikowany plik z Dysku Google lub Google Workspace.
Adres URL filmu w YouTube: film w YouTube musi być publiczny lub niepubliczny.

Więcej informacji o wymaganiach dotyczących adresów URL i URI znajdziesz w dokumentacji Google Cloud.

Opcja 2. Prześlij plik jako dane wstawione

Pamiętaj o tych kwestiach dotyczących plików podanych jako dane wbudowane:

Jako dane w ciele wiadomości można wysyłać tylko małe pliki, ponieważ łączny limit rozmiaru żądania to 20 MB.
Podczas przesyłania plik jest kodowany w formacie base64 (co zwiększa jego rozmiar).

Przykłady pokazujące, jak uwzględniać pliki jako dane wstawiane w tekście, znajdziesz w artykule Generowanie tekstu z wielomodalnych promptów za pomocą interfejsu Gemini API.

Zdjęcia: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących obrazów.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME obrazów:

Typ MIME obrazu	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
PNG – `image/png`
JPEG – `image/jpeg`
WebP – `image/webp`

Limity na żądanie

Nie ma określonego limitu liczby pikseli na obrazie. Jednak większe obrazy są zmniejszane i wypełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnego współczynnika proporcji.

Oto maksymalna dozwolona liczba plików graficznych w prośbie o prompt:

Gemini 1.0 Pro Vision: 16 obrazów
Gemini 1.5 Flash i Gemini 1.5 Pro: 3000 obrazów

Obrazy: tokenizacja

Oto sposób obliczania tokenów w przypadku obrazów:

Gemini 1.0 Pro Vision: każde zdjęcie to 258 tokenów.
Gemini 1.5 Flash i Gemini 1.5 Pro:
- Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokenów.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz zostaje przycięty do formatu kafelkowego. Domyślny rozmiar każdej płytki to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każda płytka jest dostosowywana tak, aby nie była mniejsza niż 256 pikseli i nie większa niż 768 pikseli. Każda płytka jest następnie zmieniana na rozmiar 768 x 768 i korzysta z 258 tokenów.

Obrazy: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

Jeśli chcesz wykryć tekst na obrazie, użyj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z większą liczbą obrazów.
Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w prośbie.
Jeśli prompt zawiera kilka obrazów i chcesz się do nich odnieść w późniejszym promptie lub w odpowiedzi modelu, możesz dodać przed każdym obrazem jego numer. Użyj w przypadku indeksu polecenia a b c lub image 1 image 2 image 3. Oto przykład użycia obrazów indeksowanych w promptach:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze efekty.
W prompcie umieść kilka przykładów.
Przed dodaniem obrazów do promptu obróć je w odpowiednią orientację.
Unikaj rozmytych obrazów.

Obrazy: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżoną liczbę obiektów.
Zastosowania medyczne: modele nie nadają się do interpretacji zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
Rozpoznawanie osób: modeli nie należy używać do identyfikowania na zdjęciach osób, które nie są celebrytami.
Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróbionych lub o bardzo niskiej rozdzielczości. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.

Film: wymagania, sprawdzone metody i ograniczenia

Film: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących filmów.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME wideo:

Typ MIME reklamy wideo	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
FLV – `video/x-flv`
MOV – `video/quicktime`
MPEG – `video/mpeg`
MPEGPS – `video/mpegps`
MPG – `video/mpg`
MP4 – `video/mp4`
WEBM – `video/webm`
WMV – `video/wmv`
3GPP – `video/3gpp`

Limity na żądanie

Maksymalna dozwolona liczba plików wideo w prośbie o prompt:

Gemini 1.0 Pro Vision: 1 plik wideo.
Gemini 1.5 Flash i Gemini 1.5 Pro: 10 plików wideo

Film: tokenizacja

Oto jak są obliczane tokeny w przypadku filmów:

Wszystkie modele multimodalne Gemini: filmy są próbkowane z częstotliwością 1 klatki na sekundę (fps). Każda klatka filmu odpowiada 258 tokenom.
Gemini 1.5 Flash i Gemini 1.5 Pro: ścieżka audio jest kodowana za pomocą klatek wideo. Ścieżka audio jest też podzielona na 1-sekundowe segmenty, z których każdy składa się z 32 tokenów. Ramki wideo i tokeny audio są przeplatane z ich sygnaturami czasowymi. Sygnatury czasowe są reprezentowane przez 7 tokenów.

Film: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

Jeśli prompt zawiera 1 film, umieść go przed promptem tekstowym.
Jeśli potrzebujesz lokalizacji sygnatury czasowej w wideo z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie MM:SS, gdzie pierwsze 2 cyfry oznaczają minuty, a 2 ostatnie – sekundy. Użyj tego samego formatu w przypadku pytań dotyczących sygnatury czasowej.
Jeśli używasz Gemini 1.0 Pro Vision:
- Używaj nie więcej niż 1 filmu na prompt.
- Model przetwarza tylko informacje z pierwszych 2 minut filmu.
- Model przetwarza filmy jako niesąsiadujące ze sobą ramki obrazu z filmu. Nie zawiera dźwięku. Jeśli zauważysz, że modelka nie jest widoczna w pewnych miejscach filmu, spróbuj go skrócić, aby modelka zajmowała większą część treści.
- Model nie przetwarza żadnych informacji o dźwięku ani metadanych z czasem. Z tego powodu model może nie działać dobrze w przypadkach użycia, które wymagają danych wejściowych audio, takich jak napisy do dźwięku, lub informacji związanych z czasem, takich jak szybkość czy rytm.

Film: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Moderowanie treści: modelki odmawiają udzielania odpowiedzi na pytania dotyczące filmów, które naruszają nasze zasady bezpieczeństwa.
Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
Ruch przy dużej prędkości: modele mogą popełniać błędy podczas rozpoznawania ruchu przy dużej prędkości w filmie z powodu stałej częstotliwości próbkowania 1 klatka na sekundę (fps).
Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.

Dźwięk: wymagania i ograniczenia

Dźwięk: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach na żądanie w przypadku plików audio.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME audio:

Typ MIME pliku audio	Gemini 1.5 Flash	Gemini 1.5 Pro
AAC – `audio/aac`
FLAC – `audio/flac`
MP3 – `audio/mp3`
MPA – `audio/m4a`
MPEG – `audio/mpeg`
MPGA – `audio/mpga`
MP4 – `audio/mp4`
OPUS – `audio/opus`
PCM – `audio/pcm`
WAV – `audio/wav`
WEBM – `audio/webm`

Limity na żądanie

W żądaniu prompta możesz dołączyć maksymalnie 1 plik audio.

Dźwięk: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
Sygnatury czasowe tylko dla dźwięku: aby prawidłowo generować sygnatury czasowe plików tylko z dźwiękiem, musisz skonfigurować parametr audio_timestamp w pliku generation_config.
Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.

Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia

Dokumenty: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących dokumentów (np. PDF-ów).

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME dokumentów:

Typ MIME dokumentu	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
PDF – `application/pdf`
Tekst – `text/plain`

Limity na żądanie

Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w promptach jest ograniczona do liczby obrazów, które model może obsługiwać:

Gemini 1.0 Pro Vision: 16 stron
Gemini 1.5 Pro i Gemini 1.5 Flash: 1000 stron

Dokumenty: tokenizacja

Tokenizacja PDF

Pliki PDF są traktowane jak obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.

Koszt PDF-ów jest zgodny z cenami obrazów w Gemini. Jeśli na przykład w wywołaniu interfejsu Gemini API załączysz plik PDF zawierający 2 strony, zostanie naliczona opłata za przetworzenie 2 obrazów.

Tokenizacja tekstu

Dokumenty w postaci zwykłego tekstu są tokenizowane jako tekst. Jeśli na przykład w wywołaniu interfejsu Gemini API podasz dokument tekstowy zawierający 100 słów, zostanie naliczona opłata za przetworzenie 100 słów.

Dokumenty: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w prośbie.
Jeśli masz długi dokument, możesz go podzielić na kilka plików PDF, aby go przetworzyć.
Zamiast tekstu na zeskanowanych obrazach używaj plików PDF utworzonych z tekstem renderowanym jako tekst. Dzięki temu formatowi tekst jest czytelny dla maszyn, co ułatwia modelowi edycję, wyszukiwanie i modyfikowanie danych w porównaniu ze skanowanymi obrazami w formacie PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.

Dokumenty: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
Dokładność: modele mogą generować błędy podczas interpretowania ręcznie pisanego tekstu w dokumentach PDF.