Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Ta strona została przetłumaczona przez Cloud Translation API.

Zliczanie tokenów w modelach Gemini

Gemini przetwarzają dane wejściowe i wyjściowe w jednostkach zwanych tokenami.

Tokeny mogą być pojedynczymi znakami, np. z, lub całymi słowami, np. cat. Długie słowa są dzielone na kilka tokenów. Zbiór wszystkich tokenów używanych przez model nazywa się słownikiem, a proces dzielenia tekstu na tokeny to tokenizacja.

W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 słów w języku angielskim.

Każdy model ma maksymalną liczbę tokenów, które może obsłużyć w prompcie i odpowiedzi. Znajomość liczby tokenów w prompcie pozwala sprawdzić, czy nie przekraczasz tego limitu. Dodatkowo koszt żądania jest częściowo określany przez liczbę tokenów wejściowych i wyjściowych, więc wiedza o tym, jak je zliczać, może być przydatna.

Modele Gemini 1.0 i 1.5 również obsługiwały liczbę „płatnych znaków” i ceny, ale ponieważ te modele zostały już wycofane lub wkrótce zostaną wycofane, na tej stronie nie ma informacji o płatnych znakach.

Obsługiwane modele

gemini-3-pro-preview
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite
gemini-2.0-flash-001 (i jego automatycznie aktualizowany alias gemini-2.0-flash)
gemini-2.0-flash-lite-001 (i jego automatycznie aktualizowany alias gemini-2.0-flash-lite)
gemini-2.0-flash-preview-image-generation

Opcje liczenia tokenów

Wszystkie dane wejściowe i wyjściowe Gemini API są tokenizowane, w tym tekst, pliki obrazów i inne dane nietekstowe. Oto opcje liczenia tokenów:

Sprawdzaj liczbę tokenów tylko w przypadku żądań (przed wysłaniem ich do modelu).

Wywołaj funkcję countTokens z danymi wejściowymi żądaniaprzed wysłaniem go do modelu. Wynik to:

total_tokens: liczba tokenów tylko danych wejściowych

Sprawdź liczbę tokenów zarówno w przypadku żądań, jak i odpowiedzi.

Użyj atrybutu usageMetadata w obiekcie odpowiedzi. Obejmuje to:

prompt_token_count: liczba tokenów tylko w danych wejściowych
candidates_token_count: liczba tokenów tylko w danych wyjściowych (nie obejmuje tokenów związanych z procesem myślowym).
thoughts_token_count: liczba tokenów wymagających myślenia użytych do wygenerowania odpowiedzi
total_token_count: łączna liczba tokenów dla zarówno danych wejściowych, jak i wyjściowych (obejmuje wszystkie tokeny myślenia).

Podczas strumieniowania danych wyjściowych atrybut usageMetadata pojawia się tylko w ostatnim fragmencie strumienia. W przypadku fragmentów pośrednich jest to nil.

Opcje powyżej:

Nie będą liczyć liczby obrazów wejściowych ani liczby sekund w plikach wejściowych wideo lub audio. Liczba tokenów w przypadku każdego z tych rodzajów danych będzie jednak powiązana z tymi wartościami.
Liczba tokenów wejściowych obejmuje prompt (tekst i wszystkie pliki wejściowe), a także instrukcje systemowe i narzędzia.
Liczba tokenów wyjściowych nie obejmuje tokenów wymagających myślenia. Są one podawane w osobnym polu.
Więcej informacji o poszczególnych typach próśb znajdziesz w dalszej części tej strony.

Ceny tych opcji

Wywołanie interfejsu countTokens: wywołanie interfejsu countTokens (Count Tokens API) jest bezpłatne. Maksymalny limit interfejsu Count Tokens API to 3000 żądań na minutę (RPM).
Używanie atrybutu usageMetadata: ten atrybut jest zawsze zwracany w ramach odpowiedzi i nie generuje tokenów ani opłat.

Dodatkowe informacje

Poniżej znajdziesz dodatkowe informacje dotyczące pracy z określonymi typami próśb.

Zliczanie tokenów wejściowych tekstu

Brak dodatkowych informacji.

Zliczanie tokenów w przypadku czatu wieloetapowego

Podczas korzystania z czatu pamiętaj o tych kwestiach dotyczących połączeń telefonicznych countTokens:

Jeśli wywołasz funkcję countTokens z historią czatu, zwróci ona łączną liczbę tokenów z obu ról na czacie (total_tokens).
Aby dowiedzieć się, jak duża będzie kolejna tura rozmowy, musisz dodać ją do historii, gdy wywołujesz funkcję countTokens.

Zliczanie tokenów wejściowych w trybie multimodalnym

Pamiętaj o tych kwestiach dotyczących zliczania tokenów w przypadku danych wejściowych multimodalnych:

Opcjonalnie możesz wywołać countTokens osobno w przypadku tekstu i pliku.
W przypadku obu opcji zliczania tokenów otrzymasz tę samą liczbę tokenów niezależnie od tego, czy podasz plik jako dane wbudowane, czy użyjesz jego adresu URL.

Pliki wejściowe obrazów

Wejściowe pliki obrazów są konwertowane na tokeny na podstawie ich wymiarów:

Obrazy wejściowe, których oba wymiary są mniejsze lub równe 384 pikselom: każdy obraz jest liczony jako 258 tokenów.
Obrazy wejściowe, które są większe w jednym lub obu wymiarach: każdy obraz jest przycinany i skalowany w razie potrzeby do kafelków o wymiarach 768 x 768 pikseli, a każdy kafelek jest liczony jako 258 tokenów.

Pliki wejściowe audio i wideo

Wejściowe pliki wideo i audio są konwertowane na tokeny według tych stałych stawek:

Film: 263 tokeny na sekundę
Audio: 32 tokeny na sekundę

pliki wejściowe dokumentów (np. PDF-y);

Wejściowe pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.