Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Questa pagina è stata tradotta dall'API Cloud Translation.

Scopri di più sui modelli Gemini

La famiglia di modelli Gemini è considerata multimodale perché è in grado di elaborare informazioni provenienti da più modalità, tra cui immagini, video e testo. Ad esempio, puoi inviare a un modello Gemini la foto di un piatto di biscotti e chiedergli di darti una ricetta per prepararli.

Prompt	Risposta
`Give me a recipe for these cookies.`	`INGREDIENTS - 1 c. (2 sticks) unsalted butter, softened - 3/4 c. granulated sugar - 3/4 c. brown sugar, packed - 1 tsp . vanilla extract - 2 large eggs - 2 1/4 c. all-purpose flour - 1 tsp. baking soda - 1 tsp. salt ...`

Puoi interagire con la famiglia di modelli Gemini utilizzando il Gemini API fornito da Vertex AI su Google Cloud. Per le app web e mobile, puoi utilizzare gli SDK Vertex AI in Firebase per chiamare l'API Gemini e interagire con i modelli Gemini direttamente dalla tua app.

Questa pagina fornisce le seguenti informazioni sui modelli Gemini:

Confronto generale dei casi d'uso per i vari modelli Gemini, inclusi i tipi di input supportati.
Confronto dei dettagli di ciascun modello, ad esempio il numero massimo di token di input o la durata massima del video.
Descrizione di come vengono assegnate le versioni ai modelli Gemini, in particolare alle versioni stabili, con aggiornamento automatico e di anteprima.
Elenchi di nomi di modelli disponibili da includere nel codice durante l'inizializzazione.
Elenco delle lingue supportate per i modelli Gemini.

Modelli disponibili

Puoi utilizzare uno dei seguenti modelli Gemini con Vertex AI in Firebase:

Gemini 1.5 Flash
Modello multimodale che supporta gli stessi tipi di input e output di 1.5 Pro, ma con una comprensione del contesto lungo di 1 milione di token. Gemini 1.5 Flash è progettato specificamente per applicazioni di alto volume e a basso costo.
Gemini 1.5 Pro
Modello multimodale che supporta l'aggiunta di file immagine, audio, video e PDF nei prompt di testo o chat per una risposta di testo o codice. Inoltre, supporta la comprensione di contesti lunghi con 2 milioni di token.
Gemini 1.0 Pro Vision
Modello multimodale progettato per gestire testo, nonché immagini e video per una risposta di testo o codice. Non può essere utilizzato per la chat.
Gemini 1.0 Pro
Modello progettato per gestire attività di elaborazione del linguaggio naturale, chat con testo e codice in più passaggi e generazione di codice.

Vai ai nomi dei modelli da includere nel codice

Casi d'uso e funzionalità per ogni modello

Ogni modello Gemini ha funzionalità diverse per supportare vari casi d'uso. Per scoprire di più su ciascun modello Gemini, consulta la documentazione di Google Cloud.

Input e output supportati per ogni modello

	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Tipi di input
Testo
Codice
Immagine
PDF
Video (solo fotogrammi)
Video (fotogrammi e audio)
Audio
Tipi di output
Testo
Output strutturato (ad es. JSON) che utilizza lo schema di risposta
Codice

Per informazioni sui tipi di file supportati, consulta File di input supportati e requisiti per Vertex AI Gemini API.

Funzionalità supportate e funzionalità generali per ogni modello

		Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Generare testo da input di solo testo
Generare testo da input multimodale
Output strutturato (ad es. JSON) che utilizza lo schema di risposta
Chat a più turni
Chiamata di funzione
	Chiamate di funzioni di base
	Chiamata di funzioni parallele
	Modalità chiamata di funzione
Contare token e caratteri fatturabili
Istruzioni di sistema

Informazioni dettagliate su ogni modello

Proprietà	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Limite di token totale (input e output combinati) *	1.048.576 token	2.097.152 token	16.384 token	32.760 token
Limite di token di output *	8192 token	8192 token	2048 token	8192 token
Numero massimo di immagini per richiesta	3000 immagini	3000 immagini	16 immagini	N/D
Dimensioni massime delle immagini con codifica base64	7 MB	7 MB	7 MB	N/D
Dimensioni massime del PDF	30 MB	30 MB	30 MB	N/D
Numero massimo di file video per richiesta	10 file video	10 file video	1 file video	N/D
Durata massima del video (solo frame)	~60 minuti di video	~60 minuti di video	2 minuti	N/D
Durata massima del video (fotogrammi e audio)	Circa 45 minuti di video	Circa 45 minuti di video	N/D	N/D
Numero massimo di file audio per richiesta	1 file audio	1 file audio	N/D	N/D
Durata massima dell'audio	~8,4 ore di audio	~8,4 ore di audio	N/D	N/D

^{* Per tutti i modelli Gemini, un token equivale a circa 4 caratteri, quindi 100 token corrispondono a circa 60-80 parole in inglese. Puoi determinare il conteggio totale
dei token nelle richieste utilizzando
countTokens.}

Scopri i tipi di file supportati, come specificare il tipo MIME e come assicurarti che i file e le richieste multimodali soddisfino i requisiti e seguano le best practice in File di input supportati e requisiti per Vertex AI Gemini API.

Controllo delle versioni dei modelli

I modelli Gemini sono disponibili nelle versioni stabile, con aggiornamento automatico e anteprima.

Le versioni stabili sono considerate in disponibilità generale.
- Alle versioni stabili vengono aggiunti nomi di modello con un numero di versione specifico di tre cifre, ad esempio gemini-1.5-pro-002.
Le versioni con aggiornamento automatico fanno sempre riferimento alla versione stabile più recente di quel modello. Se viene rilasciata una nuova versione stabile, la versione con aggiornamento automatico inizia automaticamente a fare riferimento a questa nuova versione stabile.
- Le versioni aggiornate automaticamente hanno nomi dei modelli senza aggiunte, ad esempio gemini-1.5-pro.
Le versioni di anteprima includono nuove funzionalità e sono considerate non stabili. Tieni presente che le versioni di anteprima fanno sempre riferimento all'ultima versione di anteprima di quel modello. Se viene rilasciata una nuova versione di anteprima, qualsiasi versione di anteprima esistente inizia automaticamente a fare riferimento a questa nuova versione.
- Alle versioni di anteprima vengono aggiunti i nomi dei modelli con -preview e la data di rilascio iniziale del modello (-MMDD), ad esempio gemini-1.5-pro-preview-0409 (rilasciato il 9 aprile 2024).

Scopri di più sulle versioni del modello Gemini disponibili e sul loro ciclo di vita nella documentazione Google Cloud.

Nomi dei modelli disponibili

I nomi dei modelli sono i valori espliciti che includi nel codice durante l'inizializzazione del modello generativo (un passaggio obbligatorio per chiamare Gemini API). Per esempi di inizializzazione per la tua lingua, consulta la guida introduttiva.

Nomi dei modelli Gemini 1.5 Flash

Nome modello	Descrizione	Fase di rilascio	Data di rilascio iniziale	Data di ritiro
Versioni stabili
`gemini-1.5-flash-002`	La versione stabile più recente di Gemini 1.5 Flash	Disponibilità generale	2024-09-24	Non prima del 24-09-2025
`gemini-1.5-flash-001`	Versione stabile iniziale di Gemini 1.5 Flash	Disponibilità generale	2024-05-24	Non prima del 24-05-2025
Versione con aggiornamento automatico
`gemini-1.5-flash`	Rimanda alla versione stabile più recente di Flash 1.5 (attualmente `gemini-1.5-flash-002`)	Disponibilità generale	2024-09-24	---

Nomi dei modelli Gemini 1.5 Pro

Nome modello	Descrizione	Fase di rilascio	Data di rilascio iniziale	Data di ritiro
Versioni stabili
`gemini-1.5-pro-002`	La versione stabile più recente di Gemini 1.5 Pro	Disponibilità generale	2024-09-24	Non prima del 24-09-2025
`gemini-1.5-pro-001`	Versione stabile iniziale di Gemini 1.5 Pro	Disponibilità generale	2024-05-24	Non prima del 24-05-2025
Versione con aggiornamento automatico
`gemini-1.5-pro`	Rimanda alla versione stabile più recente di 1.5 Pro (attualmente `gemini-1.5-pro-002`)	Disponibilità generale	2024-09-24	---

Nomi dei modelli Gemini 1.0 Pro Vision

Nome modello	Descrizione	Fase di rilascio	Data di rilascio iniziale	Data di ritiro
Versioni stabili
`gemini-1.0-pro-vision-001`	La versione stabile più recente di Gemini 1.0 Pro Vision	Disponibilità generale	2024-02-15	Non prima del 15/02/2025
Versione con aggiornamento automatico
`gemini-1.0-pro-vision`	Rimanda alla versione stabile più recente di 1.5 Pro Vision (attualmente `gemini-1.5-pro-vision-001`)	Disponibilità generale	2024-01-04	---

Nomi dei modelli Gemini 1.0 Pro

Nome modello	Descrizione	Fase di rilascio	Data di rilascio iniziale	Data di ritiro
Versioni stabili
`gemini-1.0-pro-002`	Ultima versione stabile di Gemini 1.0 Pro	Disponibilità generale	2024-04-09	Non prima del 09-04-2025
`gemini-1.0-pro-001`	Versione stabile di Gemini 1.0 Pro	Disponibilità generale	2024-02-15	Non prima del 15/02/2025
Versione con aggiornamento automatico
`gemini-1.0-pro`	Rimanda alla versione stabile più recente di 1.0 Pro (attualmente `gemini-1.0-pro-002`)	Disponibilità generale	2024-02-15	---

Lingue supportate

Tutti i modelli di Gemini possono comprendere e rispondere nelle seguenti lingue:

Arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), vietnamita (vi)
I modelli Gemini 1.5 Pro e Gemini 1.5 Flash possono comprendere e rispondere nelle seguenti lingue aggiuntive:

Afrikaans (af), amarico (am), assamese (as), azero (az), bielorusso (be), bosniaco (bs), catalano (ca), cebuano (ceb), corso (co), gallese (cy), divehi (dv), esperanto (eo), basco (eu), persiano (fa), filippino (Tagalog) (fil), frisone (fy), irlandese (ga), gaelico scozzese (gd), galiziano (gl), gujarati (gu), hausa (ha), hawaiano (haw), hmong (hmn), creolo haitiano (ht), armeno (hy), igbo (ig), islandese (is), giavanese (jv), georgiano (ka), kazako (kk), khmer (km), kannada (kn), krio (kri), curdo (ku), kirghizo (ky), latino (la), lussemburghese (lb), lao (lo), malgache (mg), maori (mi), macedone (mk), malayalam (ml), mongolo (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malese (ms), maltese (mt), birmano (birmano) (my), nepalese (ne), nyanja (chichewa) (ny), odia (oriya) (or), punjabi (pa), pashto (ps), sindhi (sd), singalese (singalese) (si), samoano (sm), shona (sn), somalo (so), albanese (sq), sesotho (st), sundanese (su), tamil (ta), telugu (te), tagico (tg), uiguro (ug), urdu (ur), uzbeko (uz), xhosa (xh), yiddish (yi), yoruba (yo), zulu (zu)

Passaggi successivi

Prova le funzionalità di Gemini API

Crea conversazioni a più turni (chat).
Genera testo da prompt di solo testo.
Genera testo da prompt multimodali (inclusi testo, immagini, PDF, video e audio).
Genera output strutturato (come JSON) da prompt di testo e multimodali.
Utilizza le chiamate di funzione per collegare i modelli generativi a sistemi e informazioni esterni.