Per le app mobile e web, gli SDK Vertex AI in Firebase ti consentono di interagire con i modelli Gemini supportati direttamente dalla tua app.
I modelli Gemini sono considerati multimodali perché sono in grado di elaborare e persino generare più modalità, tra cui testo, codice, PDF, immagini, video e audio.
Ecco una breve panoramica dei modelli supportati per Vertex AI in Firebase e le rispettive ultime versioni stabili. Le sezioni successive di questa pagina forniscono confronti e informazioni più dettagliati.
Modello | Input | Output | Ottimizzato per |
---|---|---|---|
Modelli Gemini | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
testo, codice, PDF, immagini, video, audio | testo, codice, JSON (immagini e audio disponibili a breve) |
Funzionalità di nuova generazione, velocità e generazione multimodale per una vasta gamma di attività |
Gemini 1.5 Progemini-1.5-pro-002 |
testo, codice, PDF, immagini, video, audio | testo, codice, JSON | Attività di ragionamento complesso che richiedono una maggiore intelligenza |
Gemini 1.5 Flashgemini-1.5-flash-002 |
testo, codice, PDF, immagini, video, audio | testo, codice, JSON | Prestazioni rapide e versatili per una vasta gamma di attività |
La parte rimanente di questa pagina fornisce informazioni dettagliate sui modelli supportati da Vertex AI in Firebase:
-
- Input e output supportati
- Confronto di alto livello delle funzionalità supportate
- Specifiche e limitazioni, ad esempio token di input massimi o durata massima del video di input
Descrizione di come vengono versionati i modelli, in particolare le versioni stabili, con aggiornamento automatico e di anteprima
Elenchi di nomi di modelli disponibili da includere nel codice durante l'inizializzazione
Elenchi delle lingue supportate per i modelli
Nella parte inferiore di questa pagina, puoi visualizzare informazioni dettagliate sui modelli precedenti.
Confronta i modelli
Ogni modello ha funzionalità diverse per supportare vari casi d'uso. Tieni presente che ciascuna delle tabelle in questa sezione descrive ogni modello se utilizzato con Vertex AI in Firebase. Ogni modello potrebbe avere funzionalità aggiuntive non disponibili quando utilizzi i nostri SDK.
Per scoprire di più su ciascuno dei modelli Gemini nella documentazione di Google Cloud.
Input e output supportati
Questi sono i tipi di input e output supportati quando utilizzi ciascun modello con Vertex AI in Firebase:
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
Tipi di input | ||||
Testo | ||||
Codice | ||||
Documenti (PDF o testo normale) | ||||
Immagini, video e audio | ||||
Audio (streaming) | disponibile a breve | |||
Tipi di output | ||||
Testo | ||||
Output strutturato (ad es. JSON) | ||||
Codice | ||||
Immagini | disponibile a breve | |||
Audio | disponibile a breve | |||
Audio (streaming) | disponibile a breve |
Per informazioni sui tipi di file supportati, consulta File di input supportati e requisiti per Vertex AI Gemini API.
Funzionalità e capacità supportate
Di seguito sono riportate le funzionalità e le capacità supportate quando si utilizza ciascun modello con Vertex AI in Firebase:
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
Genera testo da input di testo o multimodale | ||||
Genera immagini | disponibile a breve | |||
Generare audio | disponibile a breve | |||
Genera output strutturato (ad esempio JSON) | ||||
Analisi di immagini e video (visione) | ||||
Analizzare l'audio | ||||
Analizza i documenti (PDF o testo normale) | ||||
Chat a più turni | ||||
Chiamata di funzioni (strumenti) | ||||
Chiamate di funzioni di base | ||||
Chiamata di funzioni parallele | ||||
Modalità chiamata di funzione | ||||
Contare token e caratteri fatturabili | ||||
Istruzioni di sistema | ||||
API Multimodal Live (streaming bidirezionale) | disponibile a breve |
Specifiche e limitazioni
Di seguito sono riportate le specifiche e le limitazioni relative all'utilizzo di ciascun modello con Vertex AI in Firebase:
Proprietà | Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash |
---|---|---|---|
Finestra contestuale * Limite di token totale (input + output combinati) |
1.048.576 token | 2.097.152 token | 1.048.576 token |
Limite di token di output * | 8192 token | 8192 token | 8192 token |
Data di interruzione della conoscenza | Giugno 2024 | Maggio 2024 | Maggio 2024 |
Immagini (per richiesta) | |||
Numero massimo di immagini di input | 3000 immagini | 3000 immagini | 3000 immagini |
Numero massimo di immagini di output | disponibile a breve | --- | --- |
Dimensioni massime per immagine di input con codifica Base64 | 7 MB | 7 MB | 7 MB |
PDF (su richiesta) | |||
Numero massimo di file PDF di input ** | 3000 file | 3000 file | 3000 file |
Numero massimo di pagine per file PDF di input ** | 1000 pagine | 1000 pagine | 1000 pagine |
Dimensioni massime per file PDF di input | 50 MB | 50 MB | 50 MB |
Video (su richiesta) | |||
Numero massimo di file video di input | 10 file | 10 file | 10 file |
Durata massima di tutti i video di input (solo frame) | 60 minuti circa | 60 minuti circa | 60 minuti circa |
Durata massima di tutto il video di input (fotogrammi + audio) | 45 minuti circa | 45 minuti circa | 45 minuti circa |
Audio (su richiesta) | |||
Numero massimo di file audio di input | 1 file | 1 file | 1 file |
Numero massimo di file audio di output | disponibile a breve | --- | --- |
Lunghezza massima di tutto l'audio di input | ~8,4 ore | ~8,4 ore | ~8,4 ore |
Lunghezza massima di tutto l'audio in uscita | disponibile a breve | --- | --- |
* Per tutti i modelli, un token equivale a circa 4 caratteri, quindi 100 token corrispondono a circa 60-80 parole in inglese. Per i modelli Gemini, puoi determinare il conteggio totale dei token nelle richieste utilizzando countTokens
.
** I PDF vengono trattati come immagini, quindi una singola pagina di un PDF viene considerata come un'immagine. Il numero di pagine consentite in una richiesta è limitato al numero di immagini supportate dal modello.
Trovare ulteriori informazioni dettagliate
Le quote e i prezzi sono diversi per ogni modello. I prezzi dipendono anche da input e output.
Scopri i tipi di file di input supportati, come specificare il tipo MIME e come assicurarti che i file di input e le richieste multimodali soddisfino i requisiti e seguano le best practice in File di input supportati e requisiti per Vertex AI Gemini API.
Modelli di denominazione e controllo delle versioni dei modelli
I modelli sono disponibili nelle versioni stabile, con aggiornamento automatico e anteprima.
Le versioni stabili sono considerate in disponibilità generale.
- Alle versioni stabili vengono aggiunti nomi di modello con un
numero di versione specifico di tre cifre, ad esempio
.gemini-2.0-flash-001
- Alle versioni stabili vengono aggiunti nomi di modello con un
numero di versione specifico di tre cifre, ad esempio
Le versioni con aggiornamento automatico fanno sempre riferimento alla versione stabile più recente di quel modello. Se viene rilasciata una nuova versione stabile, la versione con aggiornamento automatico inizia automaticamente a fare riferimento a questa nuova versione stabile.
- Le versioni aggiornate automaticamente hanno nomi dei modelli senza aggiunte, ad esempio
.gemini-2.0-flash
- Le versioni aggiornate automaticamente hanno nomi dei modelli senza aggiunte, ad esempio
Le versioni di anteprima presentano nuove funzionalità e sono considerate non stabili. Tieni presente che le versioni di anteprima fanno sempre riferimento all'ultima versione di anteprima di quel modello. Se viene rilasciata una nuova versione di anteprima, qualsiasi versione di anteprima esistente inizia automaticamente a fare riferimento a questa nuova versione.
- Alle versioni di anteprima vengono aggiunti i nomi dei modelli con
e la data di rilascio iniziale del modello (-preview
), ad esempio-MMDD
(rilasciato il 9 aprile 2024).gemini-1.5-pro-preview-0409
- Alle versioni di anteprima vengono aggiunti i nomi dei modelli con
Scopri di più sulle versioni del modello disponibili e sul loro ciclo di vita (Gemini) nella documentazione di Google Cloud.
Nomi dei modelli disponibili
I nomi dei modelli sono i valori espliciti che includi nel codice durante l'inizializzazione del modello generativo (un passaggio obbligatorio per chiamare Gemini API).
Puoi utilizzare l'endpoint publishers.models.list
per elencare tutti i nomi dei modelli disponibili. Tieni presente che questo elenco restituito includerà
tutti i modelli supportati da Vertex AI, ma Vertex AI in Firebase supporta solo
i modelli Gemini descritti in questa pagina.
Tieni inoltre presente che le versioni aggiornate automaticamente (ad esempio gemini-2.0-flash
) non sono elencate perché sono un alias pratico per il modello stabile di base.
Gemini nomi dei modelli
Per esempi di inizializzazione per la tua lingua, consulta la guida introduttiva.
Gemini 2.0 Flash nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di rilascio iniziale | Data di ritiro |
---|---|---|---|---|
Versioni stabili | ||||
gemini-2.0-flash-001 |
Ultima versione stabile di Gemini 2.0 Flash | Disponibilità generale | 2025-02-05 | Da stabilire |
Versione con aggiornamento automatico | ||||
gemini-2.0-flash |
Indica la versione stabile più recente di 2.0 Flash (attualmente gemini-2.0-flash-001 |
Disponibilità generale | 2025-02-10 | --- |
Nomi dei modelli Gemini 1.5 Pro
Nome modello | Descrizione | Fase di rilascio | Data di rilascio iniziale | Data di ritiro |
---|---|---|---|---|
Versioni stabili | ||||
gemini-1.5-pro-002 |
Ultima versione stabile di Gemini 1.5 Pro | Disponibilità generale | 2024-09-24 | Non prima del 24-09-2025 |
gemini-1.5-pro-001 |
Versione stabile iniziale di Gemini 1.5 Pro | Disponibilità generale | 2024-05-24 | Non prima del 24-05-2025 |
Versione con aggiornamento automatico | ||||
gemini-1.5-pro |
Rimanda alla versione stabile più recente di 1.5 Pro (attualmente gemini-1.5-pro-002 |
Disponibilità generale | 2024-09-24 | --- |
Gemini 1.5 Flash nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di rilascio iniziale | Data di ritiro |
---|---|---|---|---|
Versioni stabili | ||||
gemini-1.5-flash-002 |
Ultima versione stabile di Gemini 1.5 Flash | Disponibilità generale | 2024-09-24 | Non prima del 24-09-2025 |
gemini-1.5-flash-001 |
Versione stabile iniziale di Gemini 1.5 Flash | Disponibilità generale | 2024-05-24 | Non prima del 24-05-2025 |
Versione con aggiornamento automatico | ||||
gemini-1.5-flash |
Rimanda alla versione stabile più recente di Flash 1.5 (attualmente gemini-1.5-flash-002 |
Disponibilità generale | 2024-09-24 | --- |
Lingue supportate
Gemini
Tutti i modelli Gemini possono comprendere e rispondere nelle seguenti lingue:
Arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), vietnamita (vi)
I modelli Gemini 1.5 Pro e Gemini 1.5 Flash possono comprendere e rispondere nelle seguenti lingue aggiuntive:
Afrikaans (af), amarico (am), assamese (as), azero (az), bielorusso (be), bosniaco (bs), catalano (ca), cebuano (ceb), corso (co), gallese (cy), divehi (dv), esperanto (eo), basco (eu), persiano (fa), filippino (Tagalog) (fil), frisone (fy), irlandese (ga), gaelico scozzese (gd), galiziano (gl), gujarati (gu), hausa (ha), hawaiano (haw), hmong (hmn), creolo haitiano (ht), armeno (hy), igbo (ig), islandese (is), giavanese (jv), georgiano (ka), kazako (kk), khmer (km), kannada (kn), krio (kri), curdo (ku), kirghiso (ky), latino (la), lussemburghese (lb), lao (lo), malgache (mg), maori (mi), macedone (mk), malayalam (ml), mongolo (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malese (ms), maltese (mt), birmano (birmano) (my), nepalese (ne), nyanja (chichewa) (ny), odia (oriya) (or), punjabi (pa), pashto (ps), sindhi (sd), singalese (singalese) (si), samoano (sm), shona (sn), somalo (so), albanese (sq), sesotho (st), sundanese (su), tamil (ta), telugu (te), tagico (tg), uiguro (ug), urdu (ur), uzbeko (uz), xhosa (xh), yiddish (yi), yoruba (yo), zulu (zu)
Informazioni sui modelli precedenti
Vertex AI in Firebase supporta tutti i modelli Gemini, inclusi i modelli meno recenti come Gemini 1.0 Pro e Gemini 1.0 Pro Vision. Tuttavia, ti consigliamo vivamente di utilizzare un modello più recente con i nostri SDK. Questi modelliGemini meno recenti stanno per essere ritirati e non offrono tutte le funzionalità dei modelli più recenti.
Passaggi successivi
Prova le funzionalità di Gemini API
- Crea conversazioni a più turni (chat).
- Genera testo da prompt di solo testo.
- Genera testo da prompt multimodali (inclusi testo, immagini, PDF, video e audio).
- Genera output strutturato (ad esempio JSON) da prompt di testo e multimodali.
- Utilizza le chiamate di funzione per collegare i modelli generativi a sistemi e informazioni esterni.