La famiglia di modelli Gemini è considerata multimodale perché è in grado di elaborare informazioni da diverse modalità, tra cui immagini, video e testo. Ad esempio, puoi inviare a un modello Gemini la foto di un piatto di biscotti e chiedergli di darti una ricetta per prepararli.
Prompt | Risposta |
Dammi una ricetta per questi biscotti. |
**INGREDIENTI** - 1 c. (2 bastoncini) burro non salato, ammorbidito - 3/4 tazza di zucchero semolato - 3/4 tazza di zucchero di canna confezionato - 1 cucchiaino. estratto di vaniglia - 2 uova grandi - 2 1/4 di farina per tutti gli usi - 1 cucchiaino di bicarbonato di sodio - 1 cucchiaino di sale ... |
Puoi interagire con la famiglia di modelli Gemini utilizzando il Gemini API fornito da Vertex AI su Google Cloud. Per le app web e mobile, puoi utilizzare gli SDK Vertex AI in Firebase per chiamare l'API Gemini e interagire con i modelli Gemini direttamente dalla tua app.
Questa pagina fornisce le seguenti informazioni sui modelli Gemini:
Confronto generale dei casi d'uso per i vari modelli Gemini, inclusi i tipi di input supportati.
Confronto dei dettagli relativi a ogni modello, ad esempio il numero massimo di token di input o la durata massima del video.
Descrizione di come vengono versionati i modelli Gemini, in particolare le versioni stabili, con aggiornamento automatico e anteprima.
Elenchi dei nomi di modelli disponibili da includere nel codice durante l'inizializzazione.
Elenco delle lingue supportate per i modelli Gemini.
Modelli disponibili
Puoi utilizzare uno qualsiasi dei seguenti modelli Gemini con Vertex AI in Firebase:
Gemini 1.5 Flash
Modello multimodale che supporta gli stessi tipi di input e output di 1.5 Pro, ma con una comprensione del contesto lungo di 1 milione di token. Gemini 1.5 Flash è specificamente progettato per applicazioni a basso costo e con volumi elevati.Gemini 1.5 Pro
Modello multimodale che supporta l'aggiunta di file immagine, audio, video e PDF nei prompt di testo o di chat per una risposta di testo o codice. Inoltre, supporta la comprensione di contesti lunghi con 2 milioni di token.Gemini 1.0 Pro Vision
Modello multimodale progettato per gestire testo, immagini e video per una risposta di testo o codice. Non possono essere utilizzati per la chat.Gemini 1.0 Pro
Modello progettato per gestire attività di elaborazione del linguaggio naturale, chat con testo e codice in più passaggi e generazione di codice.
Vai ai nomi dei modelli da includere nel codice
Casi d'uso e funzionalità per ogni modello
Ogni modello Gemini ha funzionalità diverse per supportare vari casi d'uso. Per scoprire di più su ciascun modello Gemini, consulta la documentazione di Google Cloud.
Input e output supportati per ogni modello
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Tipi di input | ||||
Testo | ||||
Codice | ||||
Immagine | ||||
Video (solo frame) | ||||
Video (frame e audio) | ||||
Audio | ||||
Tipi di output | ||||
Testo | ||||
Output strutturato (ad es. JSON) che utilizza lo schema di risposta | ||||
Codice |
Per informazioni sui tipi di file supportati, consulta File di input supportati e requisiti per Vertex AI Gemini API.
Funzionalità supportate e caratteristiche generali per ogni modello
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Generazione di testo da input di solo testo | |||||
Generazione di testo da input multimodale | |||||
Output strutturato (come JSON) che utilizza lo schema di risposta | |||||
Chat a più turni | |||||
Chiamate di funzione | |||||
Chiamate di funzione di base | |||||
Chiamate di funzioni parallele | |||||
Modalità chiamata di funzione | |||||
Contare i token e i caratteri fatturabili | |||||
Istruzioni di sistema |
Informazioni dettagliate su ciascun modello
Proprietà | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Limite di token totale (input e output combinati) * | 1.048.576 token | 2.097.152 token | 16.384 token | 32.760 token |
Limite di token di output * | 8192 token | 8192 token | 2048 token | 8192 token |
Numero massimo di immagini per richiesta | 3000 immagini | 3000 immagini | 16 immagini | N/D |
Dimensione massima dell'immagine con codifica Base64 | 7 MB | 7 MB | 7 MB | N/D |
Dimensioni massime del PDF | 30 MB | 30 MB | 30 MB | N/D |
Numero massimo di file video per richiesta | 10 file video | 10 file video | 1 file video | N/D |
Durata massima del video (solo frame) | ~60 minuti di video | Circa 60 minuti di video | 2 minuti | N/D |
Lunghezza massima del video (frame e audio) | Circa 45 minuti di video | Circa 45 minuti di video | N/D | N/D |
Numero massimo di file audio per richiesta | 1 file audio | 1 file audio | N/D | N/D |
Durata massima dell'audio | ~8,4 ore di audio | ~8,4 ore di audio | N/D | N/D |
* Per tutti i modelli Gemini, un token equivale a circa 4 caratteri,
quindi 100 token corrispondono a circa 60-80 parole inglesi. Puoi determinare il conteggio totale
dei token nelle richieste utilizzando
countTokens
.
Scopri di più sui tipi di file supportati, su come specificare il tipo MIME e su come assicurarti che i file e le richieste multimodali soddisfino i requisiti e seguano le best practice in File di input supportati e requisiti per Vertex AI Gemini API.
Controllo delle versioni dei modelli
I modelli Gemini sono disponibili nelle versioni stabile, con aggiornamento automatico e anteprima.
Le versioni stabili sono considerate in disponibilità generale.
- Le versioni stabili hanno dei nomi del modello aggiunti con un
numero di versione specifico a tre cifre, ad esempio
.gemini-1.5-pro-002
- Le versioni stabili hanno dei nomi del modello aggiunti con un
numero di versione specifico a tre cifre, ad esempio
Le versioni con aggiornamento automatico fanno sempre riferimento alla versione stabile più recente di quel modello. Se viene rilasciata una nuova versione stabile, la versione con aggiornamento automatico inizia automaticamente a fare riferimento a questa nuova versione stabile.
- Le versioni aggiornate automaticamente hanno nomi dei modelli senza aggiunte, ad esempio
.gemini-1.5-pro
- Le versioni aggiornate automaticamente hanno nomi dei modelli senza aggiunte, ad esempio
Le versioni di anteprima includono nuove funzionalità e sono considerate non stabili. Tieni presente che le versioni di anteprima fanno sempre riferimento all'ultima versione di anteprima di quel modello. Se viene rilasciata una nuova versione di anteprima, qualsiasi versione di anteprima esistente inizia automaticamente a fare riferimento a questa nuova versione.
- Alle versioni di anteprima vengono aggiunti i nomi dei modelli con
e la data di rilascio iniziale del modello (-preview
), ad esempio-MMDD
(rilasciato il 9 aprile 2024).gemini-1.5-pro-preview-0409
- Alle versioni di anteprima vengono aggiunti i nomi dei modelli con
Scopri di più sulle versioni del modello Gemini disponibili e sul loro ciclo di vita nella documentazione Google Cloud.
Nomi dei modelli disponibili
I nomi dei modelli sono i valori espliciti che includi nel codice durante l'inizializzazione del modello generativo (un passaggio obbligatorio per chiamare Gemini API). Per esempi di inizializzazione per la tua lingua, consulta la guida introduttiva.
Nomi dei modelli Flash Gemini 1.5
Nome modello | Descrizione | Fase di rilascio | Data di rilascio iniziale | Data di interruzione |
---|---|---|---|---|
Versioni stabili | ||||
gemini-1.5-flash-002 |
Ultima versione stabile di Gemini 1.5 Flash | Disponibilità generale | 2024-09-24 | Non prima del 24-09-2025 |
gemini-1.5-flash-001 |
Versione stabile iniziale di Gemini 1.5 Flash | Disponibilità generale | 2024-05-24 | Non prima del 24/05/2025 |
Versione con aggiornamento automatico | ||||
gemini-1.5-flash |
Rimanda a gemini-1.5-flash-001 Per accedere a gemini-1.5-flash-002 |
Disponibilità generale | 2024-05-24 | --- |
Nomi dei modelli Gemini 1.5 Pro
Nome modello | Descrizione | Fase di rilascio | Data di rilascio iniziale | Data di ritiro |
---|---|---|---|---|
Versioni stabili | ||||
gemini-1.5-pro-002 |
Ultima versione stabile di Gemini 1.5 Pro | Disponibilità generale | 2024-09-24 | Non prima del 24/09/2025 |
gemini-1.5-pro-001 |
Versione stabile iniziale di Gemini 1.5 Pro | Disponibilità generale | 2024-05-24 | Non prima del 24/05/2025 |
Versione con aggiornamento automatico | ||||
gemini-1.5-pro |
Punta a gemini-1.5-pro-001 Per accedere a gemini-1.5-pro-002 |
Disponibilità generale | 2024-05-24 | --- |
Nomi dei modelli Gemini 1.0 Pro Vision
Nome modello | Descrizione | Fase di rilascio | Data di rilascio iniziale | Data di interruzione |
---|---|---|---|---|
Versioni stabili | ||||
gemini-1.0-pro-vision-001 |
Ultima versione stabile di Gemini 1.0 Pro Vision | Disponibilità generale | 2024-02-15 | Non prima del 15/02/2025 |
Versione con aggiornamento automatico | ||||
gemini-1.0-pro-vision |
Rimanda alla versione stabile più recente di 1.5 Pro Vision (attualmente gemini-1.5-pro-vision-001 |
Disponibilità generale | 2024-01-04 | --- |
Nomi dei modelli Gemini 1.0 Pro
Nome modello | Descrizione | Fase di rilascio | Data di rilascio iniziale | Data di ritiro |
---|---|---|---|---|
Versioni stabili | ||||
gemini-1.0-pro-002 |
La versione stabile più recente di Gemini 1.0 Pro | Disponibilità generale | 2024-04-09 | Non prima del 09-04-2025 |
gemini-1.0-pro-001 |
Versione stabile di Gemini 1.0 Pro | Disponibilità generale | 2024-02-15 | Non prima del 15/02/2025 |
Versione aggiornata automaticamente | ||||
gemini-1.0-pro |
Punta all'ultima versione stabile di 1.0 Pro (attualmente gemini-1.0-pro-002 |
Disponibilità generale | 2024-02-15 | --- |
Lingue supportate
Tutti i modelli Gemini sono in grado di comprendere e rispondere nelle seguenti lingue:
Arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), vietnamita (vi)
I modelli Gemini 1.5 Pro e Gemini 1.5 Flash possono comprendere e rispondere nelle seguenti lingue aggiuntive:
Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)
Passaggi successivi
Prova le funzionalità di Gemini API
- Crea conversazioni a più turni (chat).
- Genera testo da prompt di solo testo.
- Genera testo da prompt multimodali (inclusi testo, immagini, PDF, video e audio).
- Genera output strutturato (come JSON) da prompt di testo e multimodali.
- Utilizza le chiamate di funzione per collegare i modelli generativi a sistemi e informazioni esterni.