Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Ta strona została przetłumaczona przez Cloud Translation API.

Obsługiwane pliki wejściowe i wymagania

Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu SDK Firebase AI Logic, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych, takich jak obrazy, filmy, dźwięk i dokumenty (np. pliki PDF).

Musisz używać obsługiwanych typów plików, określać obsługiwany typ MIME oraz dbać o to, aby pliki i żądania multimodalne spełniały wymagania i były zgodne z najlepszymi praktykami.

Ta strona dotyczy korzystania z GenerativeModel i zawiera informacje na te tematy:

Opcje przesyłania plików w prośbie
Szczegółowe informacje o obsługiwanych typach MIME, sprawdzonych metodach i ograniczeniach dotyczących tych typów plików:
Obrazy | Wideo | Audio | Dokumenty (np. PDF).

Opcje przesyłania plików w przypadku żądań multimodalnych

Wybierz dostawcę interfejsu Gemini API, aby wyświetlić na tej stronie treści dotyczące tego dostawcy

W każdym żądaniu multimodalnym musisz zawsze podać te informacje:

Plik ma mimeType. Obsługiwane typy MIME każdego pliku wejściowego znajdziesz w odpowiedniej sekcji na tej stronie.
plik, Możesz podać plik jako dane wbudowane lub podać go za pomocą adresu URL.

Rozmiar i liczba plików, które możesz podać w żądaniu, zależą od typu pliku wejściowego, sposobu jego dostarczenia i użytego modelu (szczegółowe informacje znajdziesz w sekcji dotyczącej każdego typu pliku wejściowego na tej stronie).

Opcja 1. Prześlij plik jako dane wbudowane

Ważne informacje o plikach podanych jako dane wbudowane:

Jako dane wbudowane można przesyłać tylko małe pliki, ponieważ łączny rozmiar żądania jest ograniczony do 20 MB.
Plik jest kodowany w formacie Base64 podczas przesyłania (co zwiększa jego rozmiar).

Przykład pokazujący, jak dołączyć plik jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie danych wejściowych w postaci tekstu i pliku (wielomodowych). Pamiętaj, że pakiety SDK na platformy Android i Apple mogą obsługiwać obrazy w tekście w żądaniach bez konieczności określania typu MIME. Więcej informacji

Opcja 2. Prześlij plik za pomocą adresu URL

Oto akceptowane typy adresów URL w przypadku używania parametru Gemini Developer API:

Adres URL filmu w YouTube: film w YouTube musi być publiczny lub niepubliczny.

W jednej prośbie możesz podać 1 adres URL filmu w YouTube.

Zdjęcia: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących żądań obrazów.

Obsługiwane typy MIME

Gemini Modele multimodalne obsługują te typy MIME obrazów:

PNG – image/png
JPEG – image/jpeg
WebP – image/webp

Limity na żądanie

Nie ma konkretnego limitu liczby pikseli na obrazie. Większe obrazy są jednak skalowane w dół i uzupełniane, aby dopasować się do maksymalnej rozdzielczości 3072 x 3072 pikseli przy zachowaniu pierwotnego współczynnika proporcji.

Maksymalna liczba plików w żądaniu: 3000 plików obrazów

Obrazy: tokenizacja

Tokeny są obliczane w przypadku obrazów w ten sposób:

Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używanych jest 258 tokenów.
Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest dzielony na kafelki. Domyślny rozmiar każdego kafelka to mniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy fragment jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Każdy fragment jest następnie zmieniany na rozmiar 768 x 768 i wykorzystuje 258 tokenów.

Obrazy: sprawdzone metody

Aby uzyskać jak najlepsze wyniki, podczas korzystania z obrazów stosuj te sprawdzone metody i informacje:

Jeśli chcesz wykryć tekst na obrazie, używaj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z wieloma obrazami.
Jeśli prompt zawiera pojedynczy obraz, umieść go przed promptem tekstowym w żądaniu.
Jeśli prompt zawiera kilka obrazów i chcesz się do nich odwołać w dalszej części promptu lub chcesz, aby model odwołał się do nich w odpowiedzi, możesz przypisać do każdego obrazu indeks przed obrazem. Użyj a b c lub image 1 image 2 image 3 jako indeksu. Oto przykład użycia obrazów indeksowanych w prompcie:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze wyniki.
W prompcie podaj kilka przykładów.
Przed dodaniem obrazów do promptu obróć je do właściwej orientacji.
Unikaj rozmytych obrazów.

Obrazy: ograniczenia

Gemini Modele multimodalne są przydatne w wielu przypadkach użycia, ale warto znać ich ograniczenia:

Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
Rozumowanie przestrzenne: modele nie są precyzyjne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżone liczby obiektów.
Zastosowania medyczne: modele nie nadają się do interpretowania obrazów medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
Rozpoznawanie osób: modele nie są przeznaczone do identyfikowania osób, które nie są celebrytami, na obrazach.
Dokładność: modele mogą mieć halucynacje lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą też halucynować podczas interpretowania odręcznego tekstu w dokumentach z obrazami.

Film: wymagania, sprawdzone metody i ograniczenia

Film: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących żądań wideo.

Obsługiwane typy MIME

Gemini Modele multimodalne obsługują te typy MIME wideo:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV - video/wmv
3GPP – video/3gpp

Limity na żądanie

Maksymalna liczba plików w żądaniu: 10 plików wideo

Film: tokenizacja

Tokeny są obliczane w przypadku filmów w ten sposób:

Ścieżka audio jest kodowana z klatkami wideo. Ścieżka audio jest też dzielona na 1-sekundowe fragmenty, z których każdy zawiera 32 tokeny. Klatki wideo i tokeny audio są przeplatane ze sobą wraz z sygnaturami czasowymi. Sygnatury czasowe są reprezentowane jako 5 tokenów.
W przypadku filmów, w których próbkowanie odbywa się z częstotliwością 1 klatka na sekundę lub mniejszą, sygnatury czasowe pierwszej godziny filmu są reprezentowane jako 5 tokenów na klatkę filmu. Pozostałe sygnatury czasowe są reprezentowane przez 7 tokenów na klatkę filmu.
W przypadku filmów, które są próbkowane z częstotliwością powyżej 1 klatki na sekundę, sygnatury czasowe pierwszej godziny filmu są reprezentowane jako 9 tokenów na klatkę filmu. Pozostałe sygnatury czasowe są reprezentowane jako 11 tokenów na klatkę filmu.

Film: sprawdzone metody

Aby uzyskać najlepsze wyniki, podczas korzystania z filmu postępuj zgodnie z tymi sprawdzonymi metodami i informacjami:

Jeśli prompt zawiera jeden film, umieść go przed promptem tekstowym.
Jeśli potrzebujesz lokalizacji sygnatur czasowych w filmie z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie opisanym w sekcji „Format sygnatury czasowej”.

Film: ograniczenia

Gemini Modele multimodalne są przydatne w wielu przypadkach użycia, ale warto znać ich ograniczenia:

Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące filmów, które naruszają nasze zasady bezpieczeństwa.
Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy w rozpoznawaniu dźwięków innych niż mowa.

Audio: wymagania i ograniczenia

Dźwięk: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań audio.

Obsługiwane typy MIME

Gemini Modele multimodalne obsługują te typy MIME audio:

AAC - audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 – audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM – audio/webm

Limity na żądanie

Maksymalna liczba plików w żądaniu: 1 plik audio

Audio: ograniczenia

Gemini Modele multimodalne są przydatne w wielu przypadkach użycia, ale warto znać ich ograniczenia:

Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy w rozpoznawaniu dźwięków innych niż mowa.
Sygnatury czasowe tylko dla plików audio: aby dokładnie generować sygnatury czasowe dla plików tylko audio, musisz skonfigurować parametr audio_timestamp w generation_config.

Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia

Dokumenty: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dokumentów (np. plików PDF) w przypadku każdego żądania.

Obsługiwane typy MIME

Gemini Modele multimodalne obsługują te typy MIME dokumentów:

PDF – application/pdf
Tekst – text/plain

Limity na żądanie

Pliki PDF są traktowane jako obrazy, więc jedna strona pliku PDF jest traktowana jako 1 obraz. Liczba stron dozwolonych w prompcie jest ograniczona do liczby obrazów, które mogą obsługiwać modele multimodalne Gemini.

Maksymalna liczba plików w żądaniu: 3000.
Maksymalna liczba stron w pliku: 1000 stron na plik
Maksymalny rozmiar pliku: 50 MB

Dokumenty: tokenizacja

Tokenizacja plików PDF

Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.

Koszt plików PDF jest zgodny z Geminicennikiem obrazów. Jeśli na przykład w wywołaniu interfejsu API Gemini umieścisz 2-stronicowy plik PDF, poniesiesz opłatę za przetwarzanie 2 obrazów.

Dokumenty: sprawdzone metody

Aby uzyskać najlepsze wyniki, podczas korzystania z plików PDF stosuj te sprawdzone metody i informacje:

Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w swojej prośbie.
Jeśli masz długi dokument, możesz podzielić go na kilka plików PDF, aby go przetworzyć.
Używaj plików PDF, w których tekst jest renderowany jako tekst, zamiast tekstu na zeskanowanych obrazach. Ten format sprawia, że tekst jest czytelny dla maszyn, dzięki czemu model może go łatwiej edytować, wyszukiwać i przetwarzać w porównaniu ze zeskanowanymi plikami PDF z obrazami. Ta metoda zapewnia optymalne wyniki w przypadku dokumentów zawierających dużo tekstu, takich jak umowy.

Dokumenty: ograniczenia

Gemini Modele multimodalne są przydatne w wielu przypadkach użycia, ale warto znać ich ograniczenia:

Rozumowanie przestrzenne: modele nie są precyzyjne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżone liczby obiektów.
Dokładność: modele mogą generować halucynacje podczas interpretowania odręcznego tekstu w dokumentach PDF.

Obsługiwane pliki wejściowe i wymagania Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Opcje przesyłania plików w przypadku żądań multimodalnych

Opcja 1. Prześlij plik jako dane wbudowane

Opcja 2. Prześlij plik za pomocą adresu URL

Zdjęcia: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

Obsługiwane typy MIME

Limity na żądanie

Obrazy: tokenizacja

Obrazy: sprawdzone metody

Obrazy: ograniczenia

Film: wymagania, sprawdzone metody i ograniczenia

Film: wymagania

Obsługiwane typy MIME

Limity na żądanie

Film: tokenizacja

Film: sprawdzone metody

Film: ograniczenia

Audio: wymagania i ograniczenia

Dźwięk: wymagania

Obsługiwane typy MIME

Limity na żądanie

Audio: ograniczenia

Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia

Dokumenty: wymagania

Obsługiwane typy MIME

Limity na żądanie

Dokumenty: tokenizacja

Dokumenty: sprawdzone metody

Dokumenty: ograniczenia

Obsługiwane pliki wejściowe i wymagania