Questa pagina descrive vari limiti e specifiche per l'utilizzo di Live API e dei relativi modelli.
Limiti relativi alle sessioni
Per Live API, una sessione si riferisce a una connessione persistente in cui l'input e l'output vengono trasmessi in streaming continuamente sulla stessa connessione.
Se la sessione supera uno dei seguenti limiti, la connessione viene terminata.
La durata della connessione è limitata a circa 10 minuti.
La durata della sessione dipende dalle modalità di input:
- Le sessioni di input solo audio sono limitate a 15 minuti.
- L'input video e audio è limitato a 2 minuti.
La finestra contestuale della sessione è limitata a 128.000 token.
Limiti di frequenza
Live API ha limiti di frequenza sia per le sessioni simultanee per progetto Firebase sia per i token al minuto (TPM).
Gemini Developer API
- I limiti variano in base al "livello di utilizzo" del progetto Gemini Developer API (consulta la documentazione sui limiti di frequenza)
Vertex AI Gemini API
- 1000 sessioni simultanee per progetto Firebase
- 4 milioni di token al minuto
Formati audio
Live API supporta i seguenti formati audio:
- Formato audio di input:audio PCM a 16 bit non elaborato a 16 kHz little-endian
Formato audio di output:audio PCM raw a 16 bit a 24 kHz little-endian
Tipi MIME supportati:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Per comunicare la frequenza di campionamento dell'audio di input, imposta il tipo MIME di ogni
blob contenente audio su un valore come audio/pcm;rate=16000.
Formati video
Live API si aspetta una sequenza di frame immagine discreti e supporta l'input di frame video a 1 frame al secondo (FPS).
Input consigliato: risoluzione nativa 768x768 a 1 FPS.
Tipi MIME supportati:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Tieni presente che questa specifica rende Live API inadatto ai casi d'uso che richiedono l'analisi di video in rapida evoluzione, come le azioni di gioco ad alta velocità negli sport.
Voci di risposta
Live API supporta le seguenti opzioni di voce di risposta. Per le demo di come suona ogni voce, consulta Chirp 3: voci in HD.
Se non specifichi una voce di risposta, il valore predefinito è Puck.
Scopri come specificare la voce di risposta.
Zephyr -- VivaceKore -- FermoOrus -- FermoAutonoe -- VivaceUmbriel -- TranquilloErinome -- ChiaroLaomedeia -- AllegroSchedar -- UniformeAchird -- AmichevoleSadachbia -- Vivace
|
Puck -- VivaceFenrir -- EntusiastaAoede -- SpensieratoEnceladus -- SussurratoAlgieba -- DolceAlgenib -- RuvidoAchernar -- DelicatoGacrux -- MaturoZubenelgenubi -- InformaleSadaltager -- Competente
|
Charon -- InformativoLeda -- GiovanileCallirrhoe -- TranquilloIapetus -- ChiaroDespina -- FluidoRasalgethi -- InformativoAlnilam -- FermoPulcherrima -- DirettoVindemiatrix -- DelicatoSulafat -- Caldo
|
Lingue
Live API supporta le seguenti lingue. Scopri come influenzare la lingua della risposta.
| Lingua | Codice BCP-47 | Lingua | Codice BCP-47 |
|---|---|---|---|
| Arabo (egiziano) | ar-EG | Tedesco (Germania) | de-DE |
| Inglese (USA) | en-US | Spagnolo (USA) | es-US |
| Francese (Francia) | fr-FR | Hindi (India) | hi-IN |
| Indonesiano (Indonesia) | id-ID | Italiano (Italia) | it-IT |
| Giapponese (Giappone) | ja-JP | Coreano (Corea) | ko-KR |
| Portoghese (Brasile) | pt-BR | Russo (Russia) | ru-RU |
| Olandese (Paesi Bassi) | nl-NL | Polacco (Polonia) | pl-PL |
| Thailandese (Thailandia) | th-TH | Turco (Turchia) | tr-TR |
| Vietnamita (Vietnam) | vi-VN | Rumeno (Romania) | ro-RO |
| Ucraino (Ucraina) | uk_UA | Bengalese (Bangladesh) | bn-BD |
| Inglese (India) | Bundle en-IN e hi-IN | Marathi (India) | mr-IN |
| Tamil (India) | ta-IN | Telugu (India) | te-IN |