Conteggio dei token per i modelli Gemini

I modelli Gemini elaborano input e output in unità chiamate token.

I token possono essere singoli caratteri come z o intere parole come cat. Le parole lunghe vengono suddivise in più token. L'insieme di tutti i token utilizzati dal modello è chiamato vocabolario e il processo di suddivisione del testo in token è chiamato tokenizzazione.

Per i modelli Gemini, un token equivale a circa 4 caratteri. 100 token equivalgono a circa 60-80 parole in inglese.

Ogni modello ha un numero massimo di token che può gestire in una richiesta e in una risposta. Conoscere il numero di token del tuo prompt ti consente di sapere se hai superato questo limite. Inoltre, il costo di una richiesta è determinato in parte dal numero di token di input e output, quindi sapere come contarli può essere utile.

Tieni presente che i modelli Gemini 1.0 e 1.5 supportavano anche un conteggio e un prezzo dei "caratteri fatturabili", ma poiché questi modelli sono tutti ritirati o in procinto di essere ritirati, questa pagina non descrive nulla sui caratteri fatturabili.

Modelli supportati

  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash)
  • gemini-2.0-flash-lite-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash-lite)
  • gemini-2.0-flash-preview-image-generation

Opzioni per il conteggio dei token

Tutti gli input e gli output per Gemini API vengono tokenizzati, inclusi testo, file di immagini e altre modalità non testuali. Ecco le opzioni per il conteggio dei token:

Controlla il conteggio dei token per le tue richieste soltanto (prima di inviarle al modello).
Chiama countTokens con l'input della richiesta prima di inviarla al modello. Viene restituito:
  • total_tokens: conteggio dei token dell'input only
Controlla il conteggio dei token per richieste e risposte.
Utilizza l'attributo usageMetadata nell'oggetto risposta. Ad esempio:
  • prompt_token_count: conteggio dei token del solo input
  • candidates_token_count: conteggio dei token solo dell'output (non include i token di pensiero)
  • thoughts_token_count: il conteggio dei token di tutti i token di pensiero utilizzati per generare la risposta
  • total_token_count: conteggio totale dei token per sia l'input che l'output (inclusi i token di pensiero)

Quando viene eseguito lo streaming dell'output, l'attributo usageMetadata viene visualizzato solo nell'ultimo blocco dello stream. È nil per i chunk intermedi.

Tieni presente quanto segue in merito alle opzioni riportate sopra:

  • Non verrà conteggiato il numero di immagini di input o il numero di secondi nei file di input video o audio. Tuttavia, il conteggio dei token per ciascuna di queste modalità sarà correlato a questi valori.
  • Il conteggio dei token di input include il prompt (testo ed eventuali file di input), nonché eventuali istruzioni e strumenti di sistema.
  • Il conteggio dei token di output non include i token di pensiero, che vengono forniti in un campo separato.
  • Consulta le informazioni aggiuntive specifiche per ogni tipo di richiesta più avanti in questa pagina.

Prezzi per queste opzioni

  • Chiamata countTokens: non è previsto alcun costo per la chiamata countTokens (l'API Count Tokens). La quota massima per l'API Count Tokens è di 3000 richieste al minuto (RPM).

  • Utilizzo dell'attributo usageMetadata: questo attributo viene sempre restituito come parte della risposta e non comporta token o addebiti.

Informazioni aggiuntive

Ecco alcune informazioni aggiuntive quando lavori con tipi specifici di richieste.

Conteggio dei token di input di testo

Nessuna informazione aggiuntiva.

Conteggio dei token multi-turno (chat)

Tieni presente quanto segue per le chiamate countTokens quando utilizzi la chat:

  • Se chiami countTokens con la cronologia chat, viene restituito il conteggio totale dei token di entrambi i ruoli nella chat (total_tokens).
  • Per capire quanto sarà grande il tuo prossimo turno di conversazione, devi aggiungerlo alla cronologia quando chiami countTokens.

Conteggio dei token di input multimodale

Tieni presente quanto segue in merito al conteggio dei token con l'input multimodale:

  • Se vuoi, puoi chiamare countTokens sul testo e sul file separatamente.
  • Per entrambe le opzioni di conteggio dei token, otterrai lo stesso conteggio dei token indipendentemente dal fatto che tu fornisca il file come dati in linea o utilizzando il relativo URL.

File di input immagine

I file di input delle immagini vengono convertiti in token in base alle loro dimensioni:

  • Input di immagini con entrambe le dimensioni inferiori o uguali a 384 pixel: ogni immagine viene conteggiata come 258 token.
  • Input di immagini più grandi in una o entrambe le dimensioni: ogni immagine viene ritagliata e scalata in base alle necessità in riquadri di 768 x 768 pixel, quindi ogni riquadro viene conteggiato come 258 token.

File di input video e audio

I file di input video e audio vengono convertiti in token alle seguenti tariffe fisse:

  • Video: 263 token al secondo
  • Audio: 32 token al secondo

File di input di documenti (ad esempio PDF)

I file di input PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.