Conteggio dei token per i modelli Gemini

I modelli Gemini elaborano input e output in unità chiamate token.

I token possono essere singoli caratteri come z o intere parole come cat. Le parole lunghe vengono suddivise in più token. L'insieme di tutti i token utilizzati dal modello è chiamato vocabolario e il processo di suddivisione del testo in token è chiamato tokenizzazione.

Per i modelli Gemini, un token equivale a circa 4 caratteri. 100 token equivalgono a circa 60-80 parole in inglese.

Ogni modello ha un numero massimo di token che può gestire in una richiesta e in una risposta. Conoscere il numero di token del tuo prompt ti consente di sapere se hai superato questo limite. Inoltre, il costo di una richiesta è determinato in parte dal numero di token di input e output, quindi sapere come contarli può essere utile.

Tieni presente che i modelli Gemini 1.0 e 1.5 supportavano anche un conteggio e un prezzo dei "caratteri fatturabili", ma poiché questi modelli sono tutti ritirati o in procinto di essere ritirati, questa pagina non descrive nulla sui caratteri fatturabili.

Modelli supportati

  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash)
  • gemini-2.0-flash-lite-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash-lite)
  • gemini-2.0-flash-preview-image-generation

Opzioni per il conteggio dei token

Tutti gli input e gli output per Gemini API vengono tokenizzati, inclusi testo, file di immagini e altre modalità non testuali. Ecco le opzioni per il conteggio dei token:

Controlla il conteggio dei token per le tue richieste soltanto (prima di inviarle al modello).
Chiama countTokens con l'input della richiesta prima di inviarla al modello. Viene restituito:
  • total_tokens: conteggio dei token dell'input only
Controlla il conteggio dei token per richieste e risposte.
Utilizza l'attributo usageMetadata nell'oggetto risposta. Ad esempio:
  • prompt_token_count: conteggio dei token solo dell'input
  • candidates_token_count: conteggio dei token solo dell'output (non include i token di pensiero)
  • thoughts_token_count: conteggio dei token di tutti i token di pensiero utilizzati per generare la risposta
  • total_token_count: conteggio totale dei token per sia l'input che l'output (inclusi i token di pensiero)

Quando viene eseguito lo streaming dell'output, l'attributo usageMetadata viene visualizzato solo nell'ultimo blocco dello stream. È nil per i segmenti intermedi.

Tieni presente quanto segue in merito alle opzioni riportate sopra:

  • Non verrà conteggiato il numero di immagini di input o il numero di secondi nei file di input video o audio. Tuttavia, il conteggio dei token per ciascuna di queste modalità sarà correlato a questi valori.
  • Il conteggio dei token di input include il prompt (testo ed eventuali file di input), nonché eventuali istruzioni e strumenti di sistema.
  • Il conteggio dei token di output non include i token di pensiero, che vengono forniti in un campo separato.
  • Consulta le informazioni aggiuntive specifiche per ogni tipo di richiesta più avanti in questa pagina.

Prezzi per queste opzioni

  • Chiamata countTokens: non è previsto alcun costo per la chiamata countTokens (l'API Count Tokens). La quota massima per l'API Count Tokens è di 3000 richieste al minuto (RPM).

  • Utilizzo dell'attributo usageMetadata: questo attributo viene sempre restituito come parte della risposta e non comporta token o addebiti.

Informazioni aggiuntive

Ecco alcune informazioni aggiuntive quando lavori con tipi specifici di richieste.

Contare i token di input di testo

Nessuna informazione aggiuntiva.

Contare i token multi-turno (chat)

Tieni presente quanto segue per le chiamate countTokens quando utilizzi la chat:

  • Se chiami countTokens con la cronologia chat, viene restituito il conteggio totale dei token di entrambi i ruoli nella chat (total_tokens).
  • Per capire quanto sarà grande il tuo prossimo turno conversazionale, devi aggiungerlo alla cronologia quando chiami countTokens.

Contare i token di input multimodale

Tieni presente quanto segue in merito al conteggio dei token con l'input multimodale:

  • Se vuoi, puoi chiamare countTokens sul testo e sul file separatamente.
  • Per entrambe le opzioni di conteggio dei token, otterrai lo stesso conteggio dei token indipendentemente dal fatto che tu fornisca il file come dati in linea o utilizzando il relativo URL.

File di input immagine

I file di input delle immagini vengono convertiti in token in base alle loro dimensioni:

  • Input di immagini con entrambe le dimensioni inferiori o uguali a 384 pixel: ogni immagine viene conteggiata come 258 token.
  • Input di immagini più grandi in una o entrambe le dimensioni: ogni immagine viene ritagliata e scalata in base alle necessità in riquadri di 768 x 768 pixel, quindi ogni riquadro viene conteggiato come 258 token.

File di input video e audio

I file di input video e audio vengono convertiti in token alle seguenti tariffe fisse:

  • Video: 263 token al secondo
  • Audio: 32 token al secondo

File di input di documenti (ad esempio PDF)

I file di input PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.