Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Questa pagina è stata tradotta dall'API Cloud Translation.

Conteggio dei token per i modelli Gemini

Gemini elaborano input e output in unità chiamate token.

I token possono essere singoli caratteri come z o intere parole come cat. Le parole lunghe vengono suddivise in più token. L'insieme di tutti i token utilizzati dal modello è chiamato vocabolario e il processo di suddivisione del testo in token è chiamato tokenizzazione.

Per i modelli Gemini, un token equivale a circa 4 caratteri. 100 token equivalgono a circa 60-80 parole in inglese.

Ogni modello ha un numero massimo di token che può gestire in una richiesta e in una risposta. Conoscere il numero di token del tuo prompt ti consente di sapere se hai superato questo limite. Inoltre, il costo di una richiesta è determinato in parte dal numero di token di input e output, quindi sapere come contarli può essere utile.

Tieni presente che i modelli Gemini 1.0 e 1.5 supportavano anche un conteggio e un prezzo dei "caratteri fatturabili", ma poiché questi modelli sono tutti ritirati o in procinto di essere ritirati, questa pagina non descrive nulla sui caratteri fatturabili.

Modelli supportati

gemini-3-pro-preview
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite
gemini-2.0-flash-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash)
gemini-2.0-flash-lite-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash-lite)
gemini-2.0-flash-preview-image-generation

Opzioni per il conteggio dei token

Tutti gli input e gli output per Gemini API vengono tokenizzati, inclusi testo, file di immagini e altre modalità non testuali. Di seguito sono riportate le opzioni per il conteggio dei token:

Controlla il conteggio dei token solo per le richieste (prima di inviarle al modello).

Chiama countTokens con l'input della richiesta prima di inviarla al modello. Viene restituito:

total_tokens: conteggio dei token dell'input only

Controlla il conteggio dei token per richieste e risposte.

Utilizza l'attributo usageMetadata nell'oggetto risposta. Ad esempio:

prompt_token_count: conteggio dei token solo dell'input
candidates_token_count: conteggio dei token solo dell'output (non include i token di pensiero)
thoughts_token_count: conteggio dei token di tutti i token di pensiero utilizzati per generare la risposta
total_token_count: conteggio totale dei token per sia l'input che l'output (inclusi i token di pensiero)

Quando l'output di streaming, l'attributo usageMetadata viene visualizzato solo nell'ultimo blocco dello stream. È nil per i blocchi intermedi.

Tieni presente quanto segue in merito alle opzioni riportate sopra:

Non verrà conteggiato il numero di immagini di input o il numero di secondi nei file di input video o audio. Tuttavia, il conteggio dei token per ciascuna di queste modalità corrisponderà a questi valori.
Il conteggio dei token di input include il prompt (testo ed eventuali file di input), nonché eventuali istruzioni e strumenti di sistema.
Il conteggio dei token di output non include i token di pensiero, che vengono forniti in un campo separato.
Consulta le informazioni aggiuntive specifiche per ogni tipo di richiesta più avanti in questa pagina.

Prezzi per queste opzioni

Chiamata countTokens: non è previsto alcun costo per la chiamata countTokens (l'API Count Tokens). La quota massima per l'API Count Tokens è di 3000 richieste al minuto (RPM).
Utilizzo dell'attributo usageMetadata: questo attributo viene sempre restituito come parte della risposta e non comporta token o addebiti.

Informazioni aggiuntive

Ecco alcune informazioni aggiuntive quando lavori con tipi specifici di richieste.

Conteggio dei token di input di testo

Nessuna informazione aggiuntiva.

Conteggiare i token multi-turno (chat)

Tieni presente quanto segue per le chiamate countTokens quando utilizzi la chat:

Se chiami countTokens con la cronologia chat, viene restituito il conteggio totale dei token di entrambi i ruoli nella chat (total_tokens).
Per capire quanto sarà grande il tuo prossimo turno conversazionale, devi aggiungerlo alla cronologia quando chiami countTokens.

Conteggio dei token di input multimodale

Tieni presente quanto segue in merito al conteggio dei token con l'input multimodale:

Se vuoi, puoi chiamare countTokens sul testo e sul file separatamente.
Per entrambe le opzioni di conteggio dei token, otterrai lo stesso conteggio dei token indipendentemente dal fatto che tu fornisca il file come dati in linea o utilizzando il relativo URL.

File di input delle immagini

I file di input delle immagini vengono convertiti in token in base alle loro dimensioni:

Input di immagini con dimensioni entrambe inferiori o uguali a 384 pixel: ogni immagine viene conteggiata come 258 token.
Input di immagini più grandi in una o entrambe le dimensioni: ogni immagine viene ritagliata e ridimensionata in base alle necessità in riquadri di 768 x 768 pixel, quindi ogni riquadro viene conteggiato come 258 token.

File di input video e audio

I file di input video e audio vengono convertiti in token alle seguenti tariffe fisse:

Video: 263 token al secondo
Audio: 32 token al secondo

File di input di documenti (ad esempio PDF)

I file di input PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.