Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Questa pagina è stata tradotta dall'API Cloud Translation.

File di input supportati e requisiti

Quando chiami Gemini API dalla tua app utilizzando un SDK Firebase AI Logic, puoi chiedere al modello Gemini di generare testo in base a un input multimodale, come immagini, video e audio, e documenti (come PDF).

Devi utilizzare tipi di file supportati, specificare un tipo MIME supportato e assicurarti che i tuoi file e le tue richieste multimodali soddisfino i requisiti e seguano le best practice.

Questa pagina è specifica per l'utilizzo di un GenerativeModel e descrive quanto segue:

Opzioni per fornire i file nella richiesta.
Dettagli sui tipi MIME supportati, sulle best practice e sulle limitazioni per i seguenti input di file:
Immagini | Video | Audio | Documenti (come i PDF).

Opzioni per fornire file nelle richieste multimodali

Seleziona il tuo fornitore dell'API Gemini per visualizzare i contenuti specifici del fornitore in questa pagina

In ogni richiesta multimodale devi sempre fornire quanto segue:

Il file è mimeType. Consulta i tipi MIME supportati di ogni file di input nella sezione pertinente di questa pagina.
Il file. Puoi fornire il file come dati incorporati o fornire il file utilizzando il relativo URL.

Le dimensioni e il numero di file che puoi fornire nella richiesta sono determinati da tipo di file di input, modalità di fornitura del file e modello utilizzato (per i dettagli, consulta la sezione di ciascun tipo di file di input in questa pagina).

Opzione 1: fornisci il file come dati in linea

Tieni presente quanto segue in merito ai file forniti come dati incorporati:

Solo i file di piccole dimensioni possono essere inviati come dati incorporati perché il limite delle dimensioni totali della richiesta è di 20 MB.
Il file viene codificato in base64 durante il trasferimento (il che aumenta la dimensione del file).

Per un esempio che mostra come includere un file come dati incorporati, consulta Generare testo da input di testo e file (multimodale). Tieni presente che gli SDK per le piattaforme Android e Apple possono gestire le immagini in linea nelle richieste senza la necessità di specificare il tipo MIME. Scopri di più.

Opzione 2: fornisci il file utilizzando un URL

Di seguito sono riportati i tipi di URL accettabili quando utilizzi Gemini Developer API:

URL del video di YouTube: il video di YouTube deve essere pubblico o non in elenco.

Puoi specificare un URL di video di YouTube per ogni richiesta.

Immagini: requisiti, best practice e limitazioni

Immagini: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per le immagini.

Tipi MIME supportati

Gemini I modelli multimodali supportano i seguenti tipi MIME di immagini:

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Limiti per richiesta

Non esiste un limite specifico al numero di pixel in un'immagine. Tuttavia, le immagini più grandi vengono ridimensionate e riempite per adattarsi a una risoluzione massima di 3072 x 3072 mantenendo le proporzioni originali.

Numero massimo di file per richiesta: 3000 file immagine

Immagini: tokenizzazione

Ecco come vengono calcolati i token per le immagini:

Se entrambe le dimensioni di un'immagine sono inferiori o uguali a 384 pixel, vengono utilizzati 258 token.
Se una dimensione di un'immagine è superiore a 384 pixel, l'immagine viene ritagliata in riquadri. Le dimensioni di ogni riquadro sono impostate per impostazione predefinita sulla dimensione più piccola (larghezza o altezza) divisa per 1,5. Se necessario, ogni riquadro viene modificato in modo che non sia inferiore a 256 pixel e non superiore a 768 pixel. Ogni riquadro viene quindi ridimensionato a 768 x 768 e utilizza 258 token.

Immagini: best practice

Quando utilizzi le immagini, segui le best practice e le informazioni riportate di seguito per ottenere risultati ottimali:

Se vuoi rilevare il testo in un'immagine, utilizza prompt con una singola immagine per ottenere risultati migliori rispetto ai prompt con più immagini.
Se il prompt contiene una sola immagine, inseriscila prima del prompt di testo nella richiesta.
Se il prompt contiene più immagini e vuoi farvi riferimento in un secondo momento nel prompt o vuoi che il modello vi faccia riferimento nella risposta, può essere utile assegnare a ogni immagine un indice prima dell'immagine. Utilizza a b c o image 1 image 2 image 3 per l'indice. Di seguito è riportato un esempio di utilizzo di immagini indicizzate in un prompt:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Utilizza immagini con una risoluzione più elevata, in quanto producono risultati migliori.
Includi alcuni esempi nel prompt.
Ruota le immagini nell'orientamento corretto prima di aggiungerle al prompt.
Evita immagini sfocate.

Immagini: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

Moderazione dei contenuti: i modelli si rifiutano di fornire risposte su immagini che violano le nostre norme di sicurezza.
Ragionamento spaziale: i modelli non sono precisi nell'individuazione di testo o oggetti nelle immagini. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
Usi medici: i modelli non sono adatti per interpretare immagini mediche (ad esempio radiografie e tomografie) o per fornire consulenza medica.
Riconoscimento delle persone: i modelli non sono pensati per identificare persone che non sono celebrità nelle immagini.
Precisione: i modelli potrebbero avere allucinazioni o commettere errori quando interpretano immagini di bassa qualità, ruotate o a risoluzione estremamente bassa. I modelli potrebbero anche avere allucinazioni quando interpretano il testo scritto a mano in documenti di immagini.

Video: requisiti, best practice e limitazioni

Video: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per i video.

Tipi MIME supportati

Gemini I modelli multimodali supportano i seguenti tipi MIME video:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Limiti per richiesta

Numero massimo di file per richiesta: 10 file video

Video: tokenizzazione

Ecco come vengono calcolati i token per i video:

La traccia audio è codificata con i fotogrammi video. La traccia audio viene suddivisa in segmenti di 1 secondo, ognuno dei quali contiene 32 token. I token video e audio sono intercalati tra loro con i relativi timestamp. I timestamp sono rappresentati come 5 token.
Per i video campionati a una velocità pari o inferiore a 1 frame al secondo (fps), i timestamp della prima ora di video sono rappresentati da 5 token per frame video. I timestamp rimanenti sono rappresentati da 7 token per fotogramma video.
Per i video campionati a una velocità superiore a 1 frame al secondo (fps), i timestamp della prima ora di video sono rappresentati da 9 token per frame video. I timestamp rimanenti sono rappresentati come 11 token per frame video.

Video: best practice

Quando utilizzi i video, segui queste best practice e informazioni per ottenere i risultati migliori:

Se il prompt contiene un solo video, posizionalo prima del prompt di testo.
Se hai bisogno della localizzazione dei timestamp in un video con audio, chiedi al modello di generare timestamp che seguano il formato descritto in "Formato del timestamp".

Video: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

Moderazione dei contenuti: i modelli si rifiutano di fornire risposte su video che violano le nostre norme di sicurezza.
Riconoscimento dei suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento dei suoni non vocali.

Audio: requisiti e limitazioni

Audio: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per l'audio.

Tipi MIME supportati

I modelli multimodali Gemini supportano i seguenti tipi MIME audio:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Limiti per richiesta

Numero massimo di file per richiesta: 1 file audio

Audio: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

Riconoscimento dei suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento dei suoni non vocali.
Timestamp solo audio: per generare con precisione i timestamp per i file solo audio, devi configurare il parametro audio_timestamp in generation_config.

Documenti (come i PDF): requisiti, best practice e limitazioni

Documenti: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per i documenti (come i PDF).

Tipi MIME supportati

Gemini i modelli multimodali supportano i seguenti tipi MIME di documenti:

PDF - application/pdf
Testo - text/plain

Limiti per richiesta

I PDF vengono trattati come immagini, quindi una singola pagina di un PDF viene trattata come un'immagine. Il numero di pagine consentite in un prompt è limitato al numero di immagini supportate dai modelli multimodali Gemini.

Numero massimo di file per richiesta: 3000
Numero massimo di pagine per file: 1000 pagine per file
Dimensioni massime per file: 50 MB per file

Documenti: tokenizzazione

Tokenizzazione PDF

I PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.

Inoltre, il costo dei PDF segue i prezzi delle immagini Gemini. Ad esempio, se includi un PDF di due pagine in una chiamata API Gemini, ti viene addebitata una commissione di input per l'elaborazione di due immagini.

Documenti: best practice

Quando utilizzi i PDF, segui queste best practice e utilizza le seguenti informazioni per ottenere i risultati migliori:

Se il prompt contiene un singolo PDF, inseriscilo prima del prompt di testo nella richiesta.
Se hai un documento lungo, valuta la possibilità di suddividerlo in più PDF per elaborarlo.
Utilizza i PDF creati con il testo visualizzato come testo anziché utilizzare il testo nelle immagini scansionate. Questo formato garantisce che il testo sia leggibile automaticamente, in modo che sia più facile per il modello modificare, cercare e manipolare rispetto ai PDF di immagini scansionate. Questa pratica fornisce risultati ottimali quando si lavora con documenti con molto testo, come i contratti.

Documenti: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

Ragionamento spaziale: i modelli non sono precisi nell'individuazione di testo o oggetti nei PDF. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
Accuratezza: i modelli potrebbero avere allucinazioni durante l'interpretazione del testo scritto a mano nei documenti PDF.

File di input supportati e requisiti Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Opzioni per fornire file nelle richieste multimodali

Opzione 1: fornisci il file come dati in linea

Opzione 2: fornisci il file utilizzando un URL

Immagini: requisiti, best practice e limitazioni

Immagini: requisiti

Tipi MIME supportati

Limiti per richiesta

Immagini: tokenizzazione

Immagini: best practice

Immagini: limitazioni

Video: requisiti, best practice e limitazioni

Video: requisiti

Tipi MIME supportati

Limiti per richiesta

Video: tokenizzazione

Video: best practice

Video: limitazioni

Audio: requisiti e limitazioni

Audio: requisiti

Tipi MIME supportati

Limiti per richiesta

Audio: limitazioni

Documenti (come i PDF): requisiti, best practice e limitazioni

Documenti: requisiti

Tipi MIME supportati

Limiti per richiesta

Documenti: tokenizzazione

Documenti: best practice

Documenti: limitazioni

File di input supportati e requisiti